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ПРЕДИСЛОВИЕ 


Мы привыкли к Интернету и обращение к нему для многих 
успело стать чем-то обыденным. Выйти в Интернет, просмотреть 
новостную ленту, получить и послать е-таіі, заглянутъ на форум, 
отыскать новую информацию по профессиональным интересам, 
разместить в сети что-то свое - для все большего числа людей 
эти действия превращаются в каждодневную рутину. Но 
обыденность Интернета обманчива. До сих пор нет единой точки 
зрения на то, что он есть такое? 

Самая распространенная точка зрения заключается в том, что 
Интернет - это просто самая большая в мире электронная 
библиотека текстовой, графической, видео- и аудиоинформации 
практически по любым вопросам. Мы всегда можем 
подключиться к Интернету и посредством специальных 
поисковых систем извлечь из него необходимую нам 
информацию. 

С другой точки зрения, Интернет - это некоторая новая 
реальность, которая предоставляет людям новые возможности по 
осуществлению политической, экономической, военной, 
культурной, научной и других видов деятельности. Президенты и 
правительства, промышленные и финансовые компании, военные 
и научные организации, учебные заведения, средства массовой 
информации и даже отдельные физические лица создают в сети 
Интернет свои представительства, вступают в определенные 
взаимоотношения друг с другом. 

И уж совсем фантастическая точка зрения на Интернет как на 
материализовавшуюся ноосферу Вернадского, глобальную 
интеллектуальную систему, новую геологическую силу, которая 
в скором времени преобразит Землю до неузнаваемости. Не 
Интернет существует для людей, а мы в определенном смысле 
существуем для него и являемся всего лишь орудиями его 
познавательной деятельности. Эта точка зрения лишь кажется 
такой фантастической, но если присмотреться к септи Интернет 
повнимательней, то мы обнаружим, что он достаточно 
автономен, гибель любой его части не ведет к гибели всей 
системы, что в Интернете существуют активные центры, что в 
нем протекают процессы обмена информацией, одним из 



следствий которых является усложнение и усовершенствование 
самой глобальной сети. 

В настоящей работе мы будем рассматривать сеть Интернет 
как некоторое глобальное зеркало, которое распростерлось над 
реальным физическим миром и в котором тем или иным образом, 
с теми или иными искажениями отражаются события этого мира. 
Отдельные страницы всемирной сети - это всего лишь пиксели на 
поверхности зеркала, а сайты - небольшие группы пикселей. До 
сих пор, делая запросы к поисковым системам, мы 
интересовались содержанием отдельных пикселей, но не 
пытались получить глобальную картину того, что отражено в 
зеркале. В данном случае применимо выражение, что, 
взаимодействуя с сетью Интернет, мы за деревьями не видели 
леса. Интернет пока что является для нас источником фактов, а 
было бы хорошо, если бы он стал источником знаний. 

Задача, которую мы перед собой ставим, может быть 
уточнена следующим образом. Пусть дана некоторая модель М № , 
которая представляет реальный мир. Требуется построить модель 
М„ представляющую Интернет, и определить, какие отношения 
между этими моделями имеют познавательную ценность, т.е. 
позволяют на основании свойств структуры М, делать выводы о 
свойствах структуры М да . Важность решения данной задачи 
состоит в том, что практически все содержание сети Интернет в 
полном объеме доступно каждому пользователю и требуется 
лишь научиться его анализировать. Если в физическом мире для 
уточнения параметров модели М„ нам зачастую приходится 
проводить ресурсоемкие исследования, то, изучая модель М„ 
посредством анализа модели М„ мы практически не расходуем 
никаких ресурсов. Понятно, что не всякий элемент структуры М„ 
дублирован в Мі и доступен такого рода анализу, но даже то, иго 
находит отражение в Интернет, все равно поражает своим 
объемом. 

В настоящее время существует направление исследования 
Интернет, получившее название шЬ-тіпіп^. Однако круг задач, 
которые решают в его рамках, в основном ограничен вопросами 
эффективного поиска, категоризацией текстов, изучением 
траекторий, по которым перемещаются пользователи глобальной 
сети, кликая мышкой по гипертекстовым ссылкам. Задачи 
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интересные, но чисто утилитарные, так как преследуют цель 
улучшения существующих подходов, а не выход за их рамки. 

В числе вопросов, на которые может дать ответ логический 
анализ, следующие: 

1. Какие типы данных используются в модели Мі для 
представления информации о модели М № ? 

2. Как представлено время в Мі и как оно соотносится с 
временем М да ? 

3. Что есть событие в модели Мі? 

4. Что значит существовать в Мі? 

5. Проблема истинности в Мі, и ее отношение к истинности 
в М„? 

6. Каковы методы рассуждений над Мі? 

7. Каковы методы поиска закономерностей в Мі? 

8. Возможно ли построение баз знаний над Мі? 

9. Как распространяется информация в Мі? 

Полагаем, что приведенный перечень вопросов не является 
исчерпывающим. Для ответа на них потребуются усилия многих 
исследователей, но и результат будет стоить того. В настоящей 
книге мы коснемся лишь части из них, оставив другие для 
будущих более детальных и глубоких исследований. 
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АКСИОМАТИЗАЦИЯ ИНТЕРНЕТ 

Что мы будем понимать под сетью Интернет? 

На самом низком физическом уровне Интернет представляет 
из себя просто большое число компьютеров, соединенных между 
собой посредством электрических проводов, оптоволоконных 
кабелей, каналов радиосвязи и пр. Особого интереса данная 
структура для логиков не представляет, так как речь идет всего 
лишь о способе ее технической реализации в железе. 

На более высоком уровне Интернет состоит не из 
компьютеров, а из серверов, основная функция которых 
заключается в хранении информации и ее передаче по 
определенным правилам (протоколам) другим серверам. Для 
логиков определенный интерес может представлять анализ 
протоколов обмена информацией. Здесь находит применение 
аппарат многосубъектных эпистемических логик Могут 
решаться задачи определения логической корректности 
протокола. Известно, что многие протоколы (наборы правил) 
обмена информацией между серверами содержат ошибки, 
которые при определенных условиях могут приводить к 
некорректной работе. Знание этих недостатков позволяет 
злоумышленниками получать несанкционированный доступ к 
различным информационным системам, имеющим связь с 
Интернет. Логический анализ и устранение таких недостатков 
является интересной, но все-таки частной задачей. 

На еще более высоком уровне, к которому мы собственно и 
привыкли, Интернет представляет из себя множество сайтов, 
состоящих в свою очередь из страниц, на которых может быть 
размещена текстовая, графическая, видео и аудиоинформация. На 
страницах имеются ссылки, связывающие их с другими 
страницами и сайтами, что в конечном счете образует 
гипертекстовую структуру, получившую официальное название 
\ѴогШ \Ѵіде \ѴеЪ - Всемирная Паутина. 

Именно последний уровень представления Интернета и 
будет нас интересовать. 
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Что существенно для нашего анализа? 

Интернет развивается очень бурно. Постоянно 
совершенствуются способы представления информации на 
Интернет-страницах, расширяются старые и возникают новые 
языки для их кодирования. Проблема представления информации 
также имеет прямое отношение к логике, но в данной работе нас 
будет интересовать не она. Мы предполагаем, что информация 
уже тем или иным образом представлена, и задача, которая стоит 
перед нами, - научиться эффективно пользоваться этой 
информацией. Поэтому мы отвлечемся от конкретных решений и 
их реализаций и постараемся принять более общую точку зрения, 
которая менее подвержена изменениям, связанным с эволюцией 
Интернет. Нам важно не увязнуть в сиюминутных деталях, а 
получить результаты, которые останутся значимы еще долгое 
время. 

Более общая точка зрения заключается в том, что Интернет - 
это реляционная структура, элементарным типом которой 
являются цепочки символов. Всякая страница сети Интернет - 
это просто цепочка символов, подчиняющаяся определенному 
синтаксису. Если мы хотим создать Интернет-страницу, мы 
должны всего лишь составить некоторый текст и сохранить его 
на специальном компьютере, подсоединенном к глобальной сети 
Непосредственно на странице хранится лишь текстовая 
информация, а графическая, видео и аудиоинформация 
представлены специальными ссылками на файлы 
соответствующего формата. Ссылки - это тоже цепочки 
символов. Специальные программы - интерпретаторы языков, с 
помощью которых закодированы Интернет-страницы, знают, как 
найти по ссылкам нужные файлы и представить пользователю в 
удобном виде содержащуюся в них информацию.. Как это 
конкретно делается в каждом отдельном случае, для нас 
совершенно неважно. Важно лишь, что это делается и всегда 
будет делаться. 

Кроме четырех упомянутых выше видов информации в 
Интернете широко представлена также алгоритмическая 
информация. Когда мы набираем текст запроса в поисковой 
системе и нажимаем на кнопку «Поиск», мы задействуем 
алгоритмическую информацию. Некоторые сайты 
специализируются именно на ней. Описания алгоритмов, которые 
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при этом используются, также либо закодированы в самой 
странице, либо представлены ссылками на соответствующие 
файлы. 

Мы принимаем в качестве базового типа данных сети 
Интернет цепочки символов - слова в определенном алфавите. 
Базовые операции с ними нам хорошо знакомы. Все остальные, 
более сложные, типы данных мы должны будем определить с их 
помощью. 

Логическая модель Интернет 

Для того чтобы появились цепочки символов, мы должны 
зафиксировать начальный алфавит букв АІрЬа, из которых эти 
цепочки будут строиться. Чтобы не слишком отрываться от 
действительности, будем считать, что множество букв АІрЬа 
конечно. Одним из примеров такого алфавита является хорошо 
знакомый набор из 256 А8СП-символов. Над этим алфавитом 
определим множество слов \Ѵогё: 

ІЭеП 

1. Если ае АІрЬа, то ае\Ѵогё; 

2. Если ѵе\Ѵогс1 и ѵѵеШогё, то ѵ\ѵе\Уопі; 

3. Ничто другое словом не является. 

Базовым отношением на множестве \ѴогёхАУогеІ является 
отношение вхождения Іпсішіе слова ѵ в слово ѵѵ, которое 
определяется очевидным образом: 

ІЗеО Іпсішіе с \Ѵогёх\Ѵопі, удовлетворяющее условию 
• <ѵ,\ѵ>е Іпсішіе <=> Зх,уе\Ѵогё(ѵѵ=ѵ или ѵѵ=хѵ или ѵѵ=ѵу 
или \ѵ=хѵу) 

Мы могли бы определить и другие известные типы 
отношений и операций над словами, но не станем этого делать, 
так как их добавление ничего принципиально нового не дает. 
Важно лишь иметь ввиду, что любые наши действия в конечном 
счете всегда сводимы к базовым операциям со словами в 
некотором фиксированном алфавите АІрЬа. 

Мы знаем, что всякое физическое тело имеет 
пространственно-временные координаты. Нечто подобное 
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свойственно и Интернет. В нем также имеются свои тела - 
Интернет-страницы как слова в алфавите АІрЬа, построенные в 
соответствии с синтаксисом языка НТМЬ или его модификаций. 

ОеО Воду с ѴѴогд 

Никаких ограничений на размер данного множества мы не 
налагаем. Важно лишь то, что мы всегда можем эффективно 
определять, принадлежит некоторое слово Ь множеству Воду или 
не принадлежит. Это означает, что множество Воду рекурсивно. 

Как и у физических тел, у Интернет-страниц есть свои 
координаты в пространстве глобальной сети. В качестве 
координат для пользователей Интернет выступают построенные 
по определенным правилам ІЖЬ-адреса страниц, также 
являющиеся словами в нашем алфавите. 

Оеі\4 Аддгевз с \Уогд 

На размер этого множества мы также не налагаем никаких 
ограничений и предполагаем лишь рекурсивность. 

Заметим, что далеко не каждому элементу множества 
Аддгезз, соответствует реально существующая страница. 
Пользователям Интернет знакома «Ошибка 404. Файл не найден». 
Это сообщение как раз и говорит о том, что была совершена 
неудавшаяся попытка перейти по адресу, которому не 
соответствует ни одна реально существующая страница. В 
физическом мире тоже не все места в пространстве заняты 
телами, встречается и пустота. 

Помимо этого каждой странице сопоставлено время ее 
создания или последней модификации. Реализуется оно через 
систему временных меток, которые также являются словами в 
алфавите АІрЬа. 

І)еО Тіше с \Ѵогд. 

Множество Тіше рекурсивно и на нем задано рекурсивное 
отношение линейного порядка, которое будем обозначать 
посредством < 
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Аналогия между физическими телами и Интернет- 
страницами может быть продолжена. Как и физические тела, 
страницы глобальной сети взаимодействуют друг с другом. 
Воздействие происходит через посредство ссылок (адресов), и 
благодаря этому \ѴогМ \Ѵіёе \ѴеЪ приобретает гипертекстовую 
структуру и связность. 

Интернет-страница появляется тогда, когда некоторый код 
страницы (тело) размещается по определенному адресу. Это 
позволяет дать следующее определение: 

ЭеГ.6 Раде с Ад<1ге$8хВодухТітех2 А<кІге “, удовлетворяющее 
условиям: 

• <а,Ы,И,К.1>еРа§е и <а,Ь2,12Д2>еРаде => Ы=Ь2, 11=12, 
К1=К2 - функциональность отношения, т.е. страница 
однозначно задается ее адресом; 

• <а,Ь,1;К>еРаде & геК ==><г,Ь>еІпс1и«1е; 

• Раде конечно. 

Следующая интересующая нас структура - это сайт, 
некоторое конечное множество страниц. Сайты характеризуются 
тем, что у них есть одна так называемая главная страница, адрес 
которой считается адресом самого сайта. 

Эеі.7 8йе с Радех2 Ра8е , удовлетворяющее условиям: 

• <р,Р1>е8йе и <р,Р2>е8ііе => Р1=Р2 - функциональность; 

• <р,Р>е8і4е => реР - главная страница сайта принадлежит 
самому сайту; 

• <р1,Р1>е8йеи <р2,Р2>е8йе&р15*р2 => Р1гэР2=0 - одна 
и та же страница не может принадлежать одновременно двум 
сайтам; 

• {р| ЗхЗР(<х,Р>е 8йе&р е Р)} = Раде - каждая реально 
существующая страница принадлежит хотя бы одному из сайтов. 

Так как каждая страница идентифицируется по адресу в 
Интернет, возможно альтернативное определение сайтов: 

ІЭе1\7’ 8ііе с А(і(іге$зх2 А41ге33 , удовлетворяющее условиям: 

• <а,А1>е8йе и <а г А2>е8йе => А1=А2 

функциональность; 

• <а,А>е8ііе => ае А - главная страница сайта принадлежит 
самому сайту; 
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• <а1,А1>е8йе и <а2,А2>е8йе & а1*а2 => А1оА2=0 - 
одна и та же страница не может принадлежать одновременно 
двум сайтам; 

• {а| ЗхЗА(<х,А>е8йе&аеА)} = 

{а|ЭЪЗ*ЭКРа§е<а,Ь,іД>еРа§е} - каждая реально существующая 
страница принадлежит хотя бы одному из сайтов. 

Именно это определение мы и будем использовать в 
дальнейшем. 

Еще одной структурой Интернет, на которую мы хотим 
обратить внимание, являются домены. Они позволяют 
объединять различные сайты в тематические группы, задавая на 
них древовидный порядок. О принадлежности сайга к тому или 
иному домену можно судить по его адресу, так как составными 
частями адреса являются имена доменов. В нашем представлении 
домен - это пара, состоящая из имени домена и множества 
сайтов, которые ему принадлежат. Внутреннюю структуру имен 
доменов мы анализировать не будем. 

І)еГ. 8 Ботаіп с ѴѴогсіхг^*” 5 , удовлетворяющее условиям 

• <п,А1>еОошаіп & <щА2> е Эотат => А1=А2 - 
функциональность; 

• <п,А1>еОошаіп & <т,А2>еВошаіп => А1оА2=0 или 
А1пА2=А1 - множества сайтов, принадлежащие любым двум 
доменам либо дизъюнктны, либо одно из них является 
подмножеством другого; 

• и{а| ЗѵѵЗс((<\ѵ,ё> е Оотаіп&ае ё)} = (а|3х(<а,х>е8і1е)} - 
любой сайт принадлежит хотя бы одному домену. 

И наконец последним элементом нашей модели Интернет 
являются поисковые системы. Не будь их, каждому пользователю 
был бы доступен лишь ограниченный крохотный фрагмент 
глобальной сети. Именно создателям поисковых систем мы 
должны быть благодарны за то, какую ролъ стала играть сеть 
Интернет в нашей жизни. В ответ на запрос, сформулированный 
в специальном языке, поисковая система возвращает некоторое 
конечное множество адресов Интернет-страниц, 
удовлетворяющих условиям запроса, с указанием на время, когда 
они были проиндексированы, т.е. занесены в базу данных 
поисковой системы. База данных поисковой системы является 
как бы ее внутренним представлением Интернет. Важной 
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особенностью это базы данных является то, что она 
принципиально неполна, так как в глобальной сети постоянно 
появляются новые страницы, но не все они и не сразу заносятся в 
базу. Одновременно идет и противоположный процесс - 
страницы исчезают из всемирной паутины, но упоминание о них 
все еще хранится в базе. 

Для начала нам необходимо определить множество слов- 
запросов Кефіеяі, посредством которых пользователь дает 
поисковой системе задание найти те или иные страницы. 

Оеі.9 

1. Если ѵѵ -слово в алфавите А1рЬа-{ л,#,-,),( }, то 
ѵѵеДефіезІ; 

2. хѵеКециезІ и ѵеКециезІ => (ѵѵлѵ) еКециеяІ, (ѵѵ#ѵ) 
еКефіезі, (ѵѵл-ѵ) еКециезі; 

3. Ничто иное словом-запросом не является. 

В качестве образца мы взяли языки запросов таких 
поисковых систем Интернет как АНаѴізіа, КатЫег и Япсіех 
Интересно обратить внимание на используемый в них язык. В 
нем присутствуют связки конъюнкции а, дизъюнкции и и 
отрицания -. При этом на использование отрицания налагается 
ограничение. Его можно использовать лишь вместе с 
конъюнкцией. Т.е. фактически используется не само отрицание, а 
в язык вводится третья бинарная связка л- со смысловой 
интерпретацией ‘... и не ...’, которая в классической логике 
выражает то же самое, что и отрицание импликации. Интересной 
особенностью данного языка является то, что в нем невозможно 
выразить универсально значимое высказывание, т.е. невозможно 
сформулировать такой запрос, ответом на который было бы 
множество ссылок на все проиндексированные в поисковой 
системе страницы. 

Определение поисковой системы будет выглядеть 

следующим образом: 

ІЗеОО $Е с &ефіе$ІхА(ісіге$$хТіте, для которого 
дополнительно выполняются условия: 

• <4},а,П>е8Е&<я,а,12>е8Е => 11=12 - в базе данных 
поисковой системы хранится лишь время последней 
модификации страницы; 
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• <с(,а,1>е8Е & -.3§ЗЬ(ц=(§лЬ) или я=(§#Ь) или я=(§л-Ь)) => 
ЗЬЗЩ<а,Ъ,іД>е Ра§е и <ц,Ь>еІпс1иде); 

• <(ял§),а,1>е 8Е о <я,а,1>е8Е и <§,а,1>е 8Е; 

• <(я#8),аД>е8Е <=> <я,а,1>е8Е или <§,а,1>е8Е; 

• <(ял-ё),а,^ > е8Е<=><с[,а,і>б8Еи<8,а,І>«8Е. 

Иногда вместо <я,а,1>е8Е мы будем писать <а,1>е8Е(я). 

Технология поиска информации в сети Интернет постоянно 
развивается. Создаются новые более совершенные языки 
запросов, помогающие точно отыскивать ту информацию, 
которая действительно интересует пользователя. Анализ языков 
запросов и его совершенствование - интересная задача, решению 
которой могли бы помочь логики-философы. В настоящее время 
результатом запроса к поисковой системе является набор фактов, 
удовлетворяющих заданным условиям. Это происходит потому, 
что для непосредственных разработчиков поисковых систем 
Интернет - это просто некоторая структура хранения и обмена 
информации. Для логика-философа Интернет - это некоторое 
отражение явлений и процессов реального физического мира. С 
определенными модификациями все философские категории, 
которые создавались для упорядочивания окружающего нас 
мира, могут быть перенесены и замечены в структуре глобальной 
сети. Ориентироваться во внешнем мире нам помогает знание 
закономерностей, а не фактов. Будущее не за поисковыми, а за 
поисково-аналитическими системами, результатом 

взаимодействия с которыми будут не только факты, но и новые 
знания. 

Пока же мы ограничимся лишь тем, что уже есть. Для 
простоты будем считать, что в Интернете существует всего одна 
поисковая система, которой все и пользуются. 

Итак, в каждый момент времени модель Интернет можно 
представить в виде 

Мі = <А1рЬа, ѴѴогд, Іпсіиде, Аддгевз, Воду, Типе, Ра§е, 8йе, 
Оошаіп, Кефіезі, 8Е> 
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Язык описания модели 

Определим язык, с помощью которого мы сможем 
формулировать утверждения о свойствах Интернет. Мы хотим 
ограничиться первопорядковым языком всего лишь с одним 
сортом переменных. 

БеЕ 11 Исходные символы языка 

1. Множество констант Ьейег; 

2. Множество индивидных переменных Ѵаг ; 

3. Двухместные функциональные символы *, л, #, л-; 

4. Одноместные предикатные символы Асісігезз, Воду, Тіте, 
Веяиезі; 

5. Двухместные предикатные символы =, Іп, 8йе,Ботаіп; 

6. Трехместный предикатный символ $Е; 

7. Четырехместный предикатный символ Ра§е; 

8. Логические связки &, 

9. Кванторы 3; 

10. Скобки (,). 

БеС12 Термы 

1. Всякая константа се Ьейег есть терм; 

2. Всякая переменная ѵеѴаг есть терм; 

3. Если И и і2 - термы, то (1142), (1ІДІ2), (И#12), (Ил-12); - 
термы; 

4. Ничто другое термом не является. 

ОеГ.13 Формулы 

1. Если И, і2, 13, 14 - термы, то Аддге88(П), Воду(Н), 
Тіте(Н), Кециезі(Н), И =12, Іп(Н,і2), 8і1е(Н,і2), Е)отаіп(Н,і2), 
8Е(Н,і2,іЗ), Ра§е(Н,і2,іЗ,і4) - формулы; 

2. Если хе Ѵаг, а А и В - формулы, то (А&В), -А , ЭхА - 
формулы; 

3. Ничто другое формулой не является. 

Связки з, щ ѵ и квантор V вводим обычным образом с 
помощью определений. 
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Интерпретация 

Определим функцию интерпретации Р, которая будет 
сопоставлять исходным нелогическим символам нашего языка 
различные объекты модели Мі. 

БеШ 

1. Р(с)еА1рЬа, сеЬеІІег 

2. Р(*):\Ѵог<іх\Ѵог<І— »\Уогд = (<\ѵ,ѵ,\ѵѵ>| \ѵе\Ѵог<1, ѵеѴѴогб} 

3. Р(Ас1сІге8з)=Адс1ге88 

4. Р(Воёу)=Воду 

5. Р(Тіте)=Тіте 

6. Р(К.ечиез1)= Ке^иез^ 

7. Р(Іп)=Іпс1шІе 

8. Р(8йе)={<а,Ь>| ЭА(<а,А>е8іІе & ЬеА)} 

9. Р(8Е)=8Е 

10. Р(ІХ>таіп)={<п,а>|ЗА(<п,А>еОотаіп & аеА)} 

11. Р(Ра§е)={<а,Ь,1,г>|ЗЩ<а,Ь,1Д>еРа§е & геК)} 

Для фиксированной модели Мі, функции интерпретации Р и 
приписывания значений индивидным переменным ѵеѴаІ = 
\Ѵогд Ѵаг определим значение терма I следующим образом: 

1>еШ 

1. Если сеЬеІІег, то Р ѵ (с)=Р(с); 

2. Если хеѴаг, то Р ѵ (х)=ѵ(х); 

3. Если П, 12 - термы, то Р Ѵ (ІІ*12)=Р Ѵ (ІІ)Р Ѵ (12), 

Р ѵ (11лі2)=(Р ѵ (0)лР ѵ (і2)), Р ѵ (1 1 #12)=(Р Ѵ (11 )#Р ѵ (і2)), Р ѵ (11л-12) = 

(Р ѵ (11)л-Р ѵ (і2)). 

Отношение <Мі,Р,ѵ>|=А - «формула А истинна в модели Мі 
при интерпретации Р и приписывании ѵ» определяется обычным 
образом. 


ІМ.16 

1. <Мі,Р,ѵ> =11=12 «• Р ѵ (11)= Р ѵ (і2) 

2. <Мі,Р,ѵ>=АсІ<іге8$(1) о Р ѵ (1)е Р(А<Мге§$); 

3. <Мі,Р,ѵ> =Во<1у(1) <=> Р ѵ (1)еР(Вос1у); 

4. <Мі,Р,ѵ> =Тіте(1) <=> Р ѵ (1)еР(Тііпе); 

5. <Мі,Р,ѵ>=Кефіез(1) о Р ѵ (і)еР(Кеяие$1); 

6. <Мі,Р,ѵ> =Іп(11,12) <=> <Р ѵ (і 1),Р Ѵ (12)>€ Р(іп); 

7. <Мі,Р,ѵ> =8і1е(і 1,12) < Р ѵ (11),Р ѵ (і2)>еР(8іІе); 
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8. <Мі,Р,ѵ> =8Е(11,і2,іЗ) <» Р ѵ (П),Р ѵ (і2),Р ѵ (іЗ)>еР(8Е); 

9. <Мі,Р,ѵ> =Оошаіп(11,і2) о <Р Ѵ (ІІ ),Р ѵ (і2)>е Р(Екипаіп); 

10. <Мі,Р,ѵ> =Раае(П,і2,іЗ,М) о 
<Р ѵ (П),Р ѵ (і2),Р ѵ (іЗ),Р(і4)>€р(Ра§е); 

11. <Мі,Р,ѵ>)=(А&В) <=> <Мі,Р,ѵ>|=А и <Мі,Р,ѵ>|=В ; 

12. <Мі,Р,ѵ> =-іА <=> неверно, что <Мі,Р,ѵ>|=А; 

13. <Мі,Р,ѵ>=ЭхА <=> для некоторого ѵ’, отличного от ѵ 
возможно лишь значением, приписываемым переменной х, имеет 
место <Мі,Р,ѵ’>|=А. 

Отношения «<Мі,Р>|=А - формула А истинна в модели Мі 
при интерпретации Р» и «формула |=А общезначима» также 
определяются обычным образом: 

Е)еЕ17 <Мі,Р>|=А <=> для всякого приписывания ѵеѴа! имеет 
место <Мі,Р,ѵ>|=А 

ОеГ. 18 |=А <=> для всякой Интернет-модели Мі и всякой 

интерпретации Р имеет место <Мі,Р>|=А 

Привычным образом расширим язык логическими связками 
ѵ, з,з и квантором V. 

Ниже приведен набор аксиом, которые общезначимы в 
наших моделях. Этот набор не является семантически полной 
системой аксиом хотя бы потому, что в модели часть предикатов 
конечны, а свойство конечности, как известно, невыразимо в 
первопорядковой логике. 

Аксиомы 

1. П*(12*13М*1**2)*13 

2. Іп(х,х) 

3. Іп(ѵ,ѵѵ) з ЗхЗу(ѵѵ=ѵ ѵ \ѵ=х*ѵ ѵ лѵ=ѵ*ѵ ѵ \ѵ=х*ѵ*у) 

4. Ра§е(а,Ъ,1д) з Ас1сіге8з(а)&Во<1у(Ь) &Тіте(1)&Ас1<1ге$з(г) 

5. Ра§е(а,Ь 1 ,П,г 1 )&Ра§е(а,Ь2,і2,г2) з (Ы=Ь2&И=і2) 

6. Ра§е(а,Ь,1,г) з Іп(г,Ь) 

7. 8йе(т,а) з Ас1<1ге$з(т)&А<1<Ііе88(а) 

8. 8ііе(т,а) з 8і1е(т,т) 

9. 8йе(т,а)&8йе(п,а) з т=п 

10.8ііе(т,а) з ЗЪЗіЗгРа§е(а,Ъ,1;г) 

11. Ра§е(а,Ь,1,г) з Зх8йе(х,а) 
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12. Е)отаіп(п,а) з АЛіге55(п)&А<і<іге$5(а) 

13. Е>отат(т,а 1 )&Е>отаіп(п,а2) з 
-іЭу(Оотат(іп,у)&Оотат(п,у)) ѵ Ѵу(Оотаіп(т,у) з 
Е)отат(п,у)) 

14. ЗхЬоташ(х,у) = 328ііе(у,г) 

15.8Е(я,аД) з Кецие5І(ц)&Аі1«Іге8$(а)&Тіше(0 
16.8Е(я,а,11)& 8Е(я,а,*2) з 11=12 

17.8Е(я,а,1) & -,ЗёЗЬ(я=(§лЬ)ѵя=(§#Ь)ѵц=(8л-Ь)) з 
ЗЬЗг(Ра§е(а,Ь,1,г)&Іп(я,Ь)) 

18.8Е((ял§),а,1) з 8Е(я,а,1)& 8Е(§,а,1) 

19. 8Е((я# ё ),М) = 8Е(я,а,0ѵ8Е(ё,а,0 
20. 8Е((ял-§),а,1) = 8 Е(я,а, 1 )&-. 8 Е(ё,а, 1 ) 

Примеры использования языка 

Утверждение «на странице по адресу 
Ьіф://\ѵ\ѵ\ѵ.ірЬ.газ.ги/~1оёіс/тсІех.Ьіш1 имеется фраза Сектор 
логики ИФРАН» в нашем языке может быть записано следующим 
образом: 

ЭЬЗіЗг(Ра§е(‘ЬПр://\ѵлѵѵѵ.ірЬ.газ.пі/~1оёіс/іп(1ех.ЬішГ,Ь,ід) & 
Іп(‘Сектор логики ИФРАН’,Ъ)) 

Легко проверить, что данное утверждение истинно (было 
истинно в момент написания работы). Если данная страница 
проиндексирована в поисковой системе, то имеет место 
<‘ЬПр://\ѵ\ѵтѵ.ірЬ.газ.ги/~1оёіс/іп<1ех.ЬйпІ’,1>е8Е(‘Сектор логики 
ИФРАН’) для некоторого момента времени I, когда эта страница 
была занесена в базу данных поисковой системы. 

Также легко проверить истинность более сложного 
утверждения 

ЗЬЗіЗг(Ра§е(‘ЬОр://ѵѵ\ѵ\ѵ.ірЬ.іда.т/Чоёіс/$ІаіТЬітГ,Ь,1,г) & 

Іп(‘Карпенко’,Ь) & Іп(‘Анисов’,Ь) & Іп(‘Васюков’,Ь) & 
(Іп(‘ІПкатов’,Ь) ѵ Іп(‘Зиновьев’,Ь))) 

Поэтому, если задать запрос в форме 
‘КарпенколАнисовлВаск>ковл(Шкатов#Зиновьев)’, то есть шанс 
среди ответов получить адрес 

‘ЬЦр://ѵтлѵ.ірЬ.газ.ги/~1о§іс/8Іа1Г.Ьйп1’. 


19 



Когда пользователи Интернет ищут в нем какую-либо 
информацию, они интересуются областями истинности тех или 
иных формул. Результатом такого поиска, в случае его 
успешности, является информация фактического характера. Для 
ее представления, с точки зрения логики, достаточно 
бескванторной логики предикатов, не содержащей переменных, а 
лишь одни константы. Эго слишком бедный язык, чтобы на нем и 
остановиться. 

Предложенная модель и система аксиом не являются 
истинами в последней инстанции и допускают многие уточнения 
и улучшения. Структура страниц далеко не так проста, как 
показано выше. Для решения некоторых задач необходимо более 
детальное ее представление. Не так проста структура сайтов, 
структура адресов и доменов. Поисковые системы вообще 
представляют богатейшее поле для практических приложений 
логики. 
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АНАЛИЗ ЗАПРОСОВ ПОИСКОВЫХ СИСТЕМ 

Если принять точку зрения, что Интернет - это некоторое 
зеркало, в котором находят отражение события реальной земной 
жизни, которые вовсе не случайны, а связаны между собой 
различными закономерностями, то следы этих закономерностей 
должны присутствовать и в глобальной сети. Нужно просто их 
обнаружить и извлечь. Если это окажется возможным, то мы 
получим богатейший ресурс - сможем изучать окружающий мир, 
анализируя его отражение в зеркале Интернета, который 
постоянно наполняется новым содержанием и доступен каждому. 

Всякая закономерность - это запрет на осуществление 
определенных состояний. Чем сильнее запрет, тем сильнее 
закономерность. Если запреты отсутствуют, то могут 
реализоваться любые возможные состояния, и энтропия такой 
среды максимальна Интернет является информационной средой. 
Для поиска закономерностей, мы должны искать в нем 
неравномерность распределения информации. До сих пор поиск 
ограничивался анализом содержания отдельных страниц. Если 
использовать терминологию многомерных пространств, это лишь 
одно из измерений Интернета. В предлагаемой модели 
присутствуют и другие измерения - адреса, временной порядок, 
взаимные ссылки, распределение информации по сайтам и 
доменам и пр. 

Алгебраическая модель 

Нам потребуется ввести некоторые дополнительные 
обозначения, так как в дальнейшем изложении мы будем 
различать слово-запрос, сам акт запроса и ответ на него. Во- 
первых, что такое запрос к поисковой системе? Имеется слово \ѵ, 
которое мы передаем поисковой системе 8Е для выполнения 
определенных действий. Под запросом к поисковой системе 
будем понимать сам акт взаимодействия с нею по определенным 
правилам. Для его обозначения мы будем использовать 
выражения вида К(ѵѵ). В качестве реакции на запрос поисковая 
система $Е приступает к поиску в своей базе данных адресов 
Интернет-страниц, которые удовлетворяют слову-запросу ѵѵ. 
Условия удовлетворения слову-запросу \ѵ представлены в 
определении 1>еГЛ0 и аксиомами 17-20. 
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По окончании поиска в ответ на запрос К(лѵ) формируется 
множество адресов страниц, удовлетворяющих слову-запросу ѵѵ. 
Его мы запишем в виде Щѵѵ] = {<а,1>|<ѵѵ,а,1>е8Е} и будем 
называть областью истинности запроса. Очевидно, что К.|\ѵ] 
имеет объемную характеристику и количественную, так как 
Интернет является конечной структурой. Для обозначения 
количественной характеристики ответа на запрос Щѵѵ) мы будем 
использовать запись |Щ\ѵ]| - мощность множества Щѵѵ] = {<а,1>| 
<ѵѵ,а,1>е8Е}. 

Запишем в терминах теоретико-множественных операций 
над областями истинности, как выгладят ответы на различные 
типы запросов. 

Если \ѵ и ѵ - два слова-запроса, то ответами на запросы 
Щѵѵлѵ), Щѵѵѵѵ) и Щѵѵл-ѵ) будут следующие множества: 

• Щѵѵлѵ] = {<а,і>|<\ѵ,а,і>е8Е и <ѵ,а,1>е8Е} = 
{<а,Р-(<ѵѵ,а,і>е8Е}гі{<а,1>|<ѵ,а,1>е8Е} = Щ\ѵ]г>Щѵ] 

• Щѵѵѵѵ] = {<а,1>|<ѵѵ,а,1>е8Е или <ѵ,а,1>е8Е} = 
{<а,і>|<ѵѵ,а,Р > е8Е}и{<а,1>|<ѵ,а,1>е8Е} = К.[ѵѵ]иК(ѵ] 

• Щѵѵл-ѵ] = {<а,1>|<ѵѵ,а,1>е8Е и <ѵ,аД>ё8Е} = 

{<а,1>|<\ѵ,а,1> е 8Е} п {<а,і>|<ѵ,а,1>ё 8Е} = Щѵѵ]-Щѵ] 

С последним пунктом не все так просто, как может 
показаться на первый взгляд. Дело в том, что невозможно 
сформировать запрос, областью истинности которого было бы 
множество {<аД>|<ѵ,а,і>ё8Е}. Т.е. пользователю недоступно 
обращение к универсальному множеству {<а,і>| Зѵѵ(<ѵѵ,а,1>е8Е} 
для взятия дополнения относительно него. Дополнение всегда 
берется относительно другого уже сформированного множества. 
В нашем конкретном случае это было множество 
{<аД>|<ѵѵ,а,1>е8Е}. В качестве аналогии можно привести 
аксиому выделения теории множеств Цермело-Френкеля. В ней 
также не существует универсальных множеств, и все операции 
над ними ограничены ранее построенными множествами. 

Сказанное выше означает, что множество ответов на запросы 
представляет хороший пример ультраинтуиционистской 
структуры [2], с которой мы, оказывается, сталкиваемся 
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буквально каждый день. Семейство множеств 2*® конечно и 
образует решеточную структуру, так как любые два его элемента 
имеют пересечение и объединение. Эта решетка имеет 
наименьший элемент, но не имеет наибольшего (которым должно 
быть и на самом деле является множество 8Е), а потому не 
образует булевой алгебры. Мы знаем, что конечная решетка 
всегда имеет наибольший элемент, но в том-то и сложность 
ситуации, что мы имеем дело с решеткой, которая существует не 
сама по себе, а для некоторого внешнего наблюдателя, который 
не способен идентифицировать наибольший элемент. В этом и 
только этом смысле наибольший элемент не существует. Субъект 
воспринимает 2 8Е как бесконечную решетку с конечными 
объединениями и пересечениями. 

Простейший запрос с использованием отрицания имеет вид 
К(лѵл-ѵ), для которого Я[\ѵл-ѵ] = (<а,1>| <ѵѵ,а,1>е8Е и 

<ѵ,аД>е8Е). Т.е. для правильного использования отрицания мы 
должны указать область соотнесения, относительно которой 
берется дополнение. В терминах нормальных форм классической 
логики высказываний правильно построенными запросами 
являются те, которые представимы в виде дизъюнктивной 
нормальной формы (дизъюнкции элементарных конъюнкций), 
где каждая элементарная конъюнкция содержит хотя бы один 
конъюнкт без отрицания. Легко показать, что для всякого 
правильного построенного запроса Я(\ѵ) семейство множеств 
2^" ) образует булеву алгебру, наибольшим элементом которой 
является К[ѵѵ]. 

Ограничение на использование отрицания ни в коем случае 
не является существенным, так как фактически требует от 
пользователя поисковых систем всего лишь определить 
универсум, относительно которого будет браться дополнение. 
Своеобразная дисциплина мышления. 

Посмотрим теперь, можно ли чисто аналитически вычислить 
количественные оценки |Щ\ѵдѵ]|, |К|\ѵѵѵ]| и |К[\ѵл-ѵ]| по оценкам 
|ВД|и|Щѵ]|? 

Так как Щѵѵлѵ] = К(\ѵ]оК{ѵ], то для произвольных лѵ и ѵ 
оценка |Щ\ѵлѵ]| может принимать любые из значений в интервале 
от 0 до тіп(|К.[ѵѵ]|, |Щѵ]|). Нулевую оценку мы получим, когда два 
данных множества имеют пустое пересечение, а оценку |К[\ѵлѵ]| 
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= тіп(|Щѵѵ]|,|Щѵ]|) получим, когда одно из множеств включено в 
другое. Двойственным образом оценивается ответ на запрос вида 
Щѵѵѵѵ), ответом на который будет Щѵѵѵѵ] = Щ\ѵ]иЩѵ]. 
Минимальным значением, которое может принять |Щ\ѵѵѵ]|, 
является тах(|Щ\у)|, |Щѵ||), когда одно из множеств включено в 
другое, а максимальным является |Щлѵ)|+|Щу]|, когда два 
множества дизъюнктны. Оценки [Щѵѵл-ѵ]| заключены в 
интервале от 0 до |Щ\ѵ]| и могут быть вычислены по формуле что 
|Щѵѵл-ѵ]| = |Щ\ѵ]|-|Щѵѵлѵ]|. 

Рассмотрим теперь те запросы, в которых явным образом 
содержится указание на множество соотнесения (универсум 
рассуждения). Эти запросы в общем случае будут иметь вид 
Щилѵѵ). Нам необходимо определить оценки для |Щил(ѵѵлѵ)]| и 
|Щил(ѵѵѵѵ)]| на основании оценок |Щил\ѵ]| и |К|илѵ]|. 

Для определения интервала, в котором заключена оценка 
Я|ил(\ѵлѵ)1| = |Щ (илѵѵ)]пЩ(ил\ѵ) 11, допустим, что множества 
К[ил\у] |+|Щилѵ] | < |Щи]|. В этом случае нижней границей будет 
О, когда множества Щил\ѵ] и Щилѵ] не пересекаются, а верхней 
границей будет тіп(|Щилѵѵ]|,|Щилѵ]|), когда одно из множеств 
включено в другое. Теперь допустим, что 
ІЩилѵѵ] |+|К[и аѵ] |>|К.[и] |. В этом случае в пересечении множеств 
Щил\ѵ] и Щилѵ] содержится не менее |Щил\ѵ] |+|Щилѵ] |-|Щи] | и 
опять же не более шіп(|Щил\ѵ]|,|Щилѵ]|) элементов. 

Приведенное рассуждение позволяет заключить, что 
шах(0, |Щил\ѵ| |+|К.[илѵ] |-|Щи] |) < |Щил(\ѵлѵ)]| < 

тіп(|Щилѵѵ]|,|Щилѵ]|). 

Повторим рассуждение для |Щил(лѵѵѵ)]|=|Щилѵѵ]едЩилѵ]|. 
Если |Щилѵ]|+|Щил\ѵ]|< |Щи]|, то нижней границей для 

|К.[ил\ѵ]^Щилѵ]| будет шах(|Щиллѵ]|,|Щилѵ]|), когда одно из 
множеств включено в другое, а верхней границей будет 
|Щил\ѵ] + Щилѵ]|, когда они дизъюнкты. В случае 
|Щилѵѵ] + Щилѵ]|>|Щи]| нижней границей опять будет 
тах(|Щилѵѵ] |, |Щилѵ] |), а верхней - тіп(|Щи]|,|Щилѵѵ]|+|Щилѵ]|). 

Приведенное рассуждение позволяет заключить, что 
тах(|Щил\ѵ]|,|Щил\ѵ]|) < |К[ил(ѵѵѵѵ)]| < 
тіп(|Щи] |, |Щил\ѵ] |+|Щцл ѵ] |). 
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В последующем изложении будем предполагать, что у нас 
всегда фиксировано множество соотнесения Щи]=1Д, и потому в 
запросах, когда это не может привести к недоразумению, мы 
будем опускать и. Т.е. запросы вида К(ил\ѵ) станем записывать 
просто как К.(\ѵ). 

Наши оценки получат более простую запись: 




|Щ-ѵ]| = ІЩВД 

тах(0,|К[\ѵ] +|Щѵ]|-|ІІ|) < |Я[\ѵлѵ]| < тіп(|Щѵѵ]|,|Щѵ]|) 
тах(|К[ѵѵ]|,|Щѵѵ]|) < |К[мгѵѵ]| < тіп(|Ц,|ВД+|Щѵ]|) 


Интересной представляется следующая связь полученных 
оценок с функциями конечнозначной логики Лукасевича [4,5]. 


Напомним, что матрица вида Мь=<Ѵ„+і, ~, {п}> 

называется п+1-значной матрицей Лукасевича (пеН, п>1), где 
Ѵ„+і = {0, 1,...,п-1, п}; ~ есть унарная операция отрицания и -> 
бинарная операция импликации, определенные на множестве Ѵ„ 
следующим образом: 


• ~х = п-х 

• х->у = тіп(п,п-х+у). 

Операции конъюнкции и дизъюнкции вводятся по 
определению: 

• хѵу = (х->у)-»у = тах(х,у) 

• хлу = ~(~хѵ~у) = тіп(х,у) 

Определим две других операции для конъюнкции и 
дизъюнкции так, как мы привыкли это делать в классической 
логике: 

• х#у = ~х->у = тіп(п,х+у) 

• х&у = ~(х—>~у) = ~(~х#~у) = тах(0,х+у-п) 

Если теперь посмотреть на количественные характеристики 
ответов на запросы, то они в |Н|+1-значной логике Лукасевича 
будут выглядеть следующим образом: 

• |К[-ѵЦ = ~|Я[ѵ]| 
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• ІВД &|Щѵ]| < |К[ѵѵлѵ]| < |ВД|л|Щѵ]| 

• |Р.[ѵѵ] ѵ|К[ѵѵ]| < |Щѵѵѵѵ]| < |Щѵѵ]|#|К.[ѵ]| 

Оценка для конъюнктивного запроса ограничена сверху и 
снизу двумя видами конъюнкций, а оценка дизъюнктивного 
запроса - двумя видами дизъюнкций логики Лукасевича. Если 
учесть, что конъюнкции и дизъюнкции конечнозначной логики 
Лукасевича мы определяли только через отрицание и 
импликацию, то получим, что границы интервалов для 
количественных характеристик ответов на запросы представимы 
посредством одних лишь отрицания и импликации логики 
Лукасевича. Это дает еще один повод к осмыслению того, чем 
является логика Лукасевича. 

Об отношении логики и теории вероятностей 

Для дальнейшего изложения нам необходимо прояснить 
связь между логикой и теорией вероятностей. Ни для кого не 
является секретом так называема логическая интерпретация 
вероятности. Но возможен и другой концептуально отличный 
взгляд на их отношение, заключающийся в том, что логика и 
теория вероятностей являются в определенном смысле 
теориями-двойниками, изучающими одни и те же объекты, но с 
двух взаимодополнительных точек зрения. 

Фиксируем язык логики высказываний: 

1. р, я, г, $, ... - множество пропозициональных 

переменных; 

2. &, ѵ, - логические связки. 

Определение формулы - обычное. 

Моделью нашего языка будем называть пару М=<\Ѵ, |.|>, где 

1. \Ѵ - множество возможных миров; 

2. |.| - функция интерпретации пропозициональных 

переменных, сопоставляющая каждой переменной р некоторое 
подмножество |р|с\Ѵ - область ее истинности. 

Обычным образом распространяем функцию |.| на множество 
всех формул: 

1. ЬА| = \Ѵ-|А| 
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2. А&В| = |А|г»|В| 

3. АѵВ| = |АМВ| 


Как обычно, мы говорим, что формула А общезначима в 
модели М=<\Ѵ, |.|>, если имеет место |А|=\Ѵ. Соответственно 
формула А противоречива в модели М=<\Ѵ, |.|>, если имеет 
место |А|=0. 

Итак, с точки зрения логики, каждое высказывание 
интерпретируется некоторым множеством ситуаций/миров, в 
которых это высказывание истинно. Для классической логики 
семейство областей истинности формул образует булеву алгебру 
относительно операций дополнения, пересечения и объединения 
множеств. 

Затем мы вспоминаем, что всякое множество 
характеризуется еще и мощностью, и решаем построить теорию 
количественных оценок областей истинности формул. 

Для начала допустим, что мы имеем дело только с 
конечными моделями, в которых мощность множества 
возможных миров \Ѵ оценивается некоторым натуральным 
числом N. 

Мощность множества |А| будем обозначать посредством 
п(А). Если мы захотим определять количественные оценки 
сложных формул на основании количественных оценок их 
подформул, то обнаружим, что функциональная зависимость 
существует не всегда. 

В случае формул вида -А все просто - п(-.А) = Ы-п(А). Для 
формул конъюнктивного и дизъюнктивного вида ситуация 
сложнее. 

1. п(А&В) = п(А)+п(В)-п(АѵВ) 

2. п(АѵВ) = п(А)+п(В)-п(А&В) 

Возможна также интервальная оценка: 

1. шах(0, п(А)+п(В)-К) < п(А&В) < шіп(п(А), п(В)) 

2. тах(п(А), п(В)) < п(АѵВ) < тіп(К, п(А)+п(В)) 
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Очевидно, что если формула А общезначима, то п(А)=Ы, а 
если формула А противоречива, то п(А)=0. 

Одним из недостатков наших оценок является то, что они 
привязаны к конкретным значениям мощности множества \Ѵ. Для 
того чтобы избавиться от этого недостатка, будем оценивать 
формулу А не в терминах количества миров п(А), в которых она 
истинна, а в терминах доли этих миров Р(А)=п(А)/Ы от всего 
множества \Ѵ. Тогда мы получим следующие соотношения: 

1. 0< Р(А) <1 для любой формулы А; 

2. Р(А)=0, если А - противоречива; 

3. Р(АѵВ) = Р(А)+Р(В)-Р(А&В). 

Но это есть аксиомы классической теории вероятностей. 
Интервальные оценки, переписанные в виде: 

1. тах(0, Р(А)+Р(В)-1) < Р(А&В) <; щіп(Р(А), Р(В)) 

2. тах(Р(А), Р(В)) < Р(АѵВ) < тіп(1, Р(А)+Р(В)) 

также известны в теории вероятностей [41,44]. 

Можно подумать, что ничего нового мы не получили, а всего 
лишь пришли к давно известной логической интерпретации 
теории вероятностей. Да, подумать можно, но все-таки это не так. 
Важно не только то, что мы получили в результате, но и 
мотивация наших действий, которая привела к конечному 
результату. Дело в том, что мы не ставили себе цели дать 
логическую интерпретацию теории вероятностей. Нас 
интересовала теория количественных оценок областей 
истинности формул, развив которую, мы пришли к выводу что 
для классической логики эта теория в точности совпадает с 
теорией вероятностей. 

При переходе от логики высказываний к логике предикатов 
мы можем интересоваться количественными оценками 
множества приписываний в фиксированной модели, которые 
выполняют данную формулу, или количественными оценками 
множества моделей, в которых истинна данная формула. Переход 
от конечных моделей к бесконечным может быть произведен 
просто как обобщение конечного случая. 
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Мы уже давно отказались от мысли о существовании 
единственно истинной логики. Одним из важных следствий 
полученного нами результата будет отказ от единственно 
истинной теории вероятностей. Каждой неклассической логике 
будет соответствовать ее теория количественных оценок для 
областей истинности формул. Эти теории в общем случае не 
будут совпадать с теорией количественных оценок для 
классической логики. Например, если в классической теории 
имеет место Р(Аѵ-іА) = Р(А)+Р(-іА) = 1, то очевидно в 
интуиционистской логике это выполняться не будет, так как в 
ней формула Аѵ-іА не является теоремой [45]. Для 
паранепротиворечивых логик не будет выполняться соотношение 
Р(А&-іА) = 0. Очень интересными являются теории 

количественных оценок областей истинности для многозначных 
логик. 

Логики-философы давно и глубоко занимаются вопросом, 
как влияет принятие тех или иных онтологических и 
гносеологических предпосылок на принятие различных законов 
логики. Теперь можно точно так же поставить вопрос об 
аналогичном влиянии онтологических и гносеологических 
предпосылок на количественные и вероятностные оценки 
предметной области. Это имеет важное прикладное значение, так 
как мы являемся свидетелями экспансии неклассических логик в 
науке и технике, а переход от качественных к количественным 
оценкам расширяет сферу их применимости. Далеко не случайно 
появилось много работ по квантитативной силлогистике, в 
которой терминам сопоставляются не множества, как мы 
привыкли, а именно оценки числа входящих в них элементов 
[37,38,39,40]. Но силлогистика представляет собой лишь 
небольшой фрагмент науки логики. 

Теперь посмотрим, как соотносится с логикой статистика. 

В колмогоровской модели теории вероятностей имеется 
семейство подмножеств множества V, замкнутое относительно 
объединения, пересечения и дополнения, и функция Р, 
определенная на этом семействе со значениями в замкнутом 
интервале от 0 до 1. 

Функция Р удовлетворяет трем аксиомам: 

1. 0 < Р(А) < 1 
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2. Р(0) = О 

3. Р(АиВ) = Р(А)+Р(В)-Р(АпВ) 

В общем виде задачей статистики является обратная задача 
восстановление функции Р на основании некоторой 
ограниченной выборки элементов множества V. В привычной 
нам науке логики эту же задачу, но другими средствами, 
призвана решать индуктивная логика Т.е. мы получаем, что 
количественным двойником дедуктивной логики является теория 
вероятностей, а количественным двойником индуктивной логики 
является теория статистики. Подводя итог, можно сказать, что 
допустим взгляд на теорию вероятностей как на 
квантитативную логику. 

Если пойти немного дальше и выйти за рамки отношения 
логики и теории вероятностей, то можно вспомнить, что 
множества, помимо оценки их мощности, могут 
характеризоваться типом упорядочения. Т.е. можно развить 
теорию порядковых оценок областей истинности. При этом 
порядок не обязан быть линейным, а может иметь гораздо более 
сложную структуру. Замечу, что некоторые работы логиков 
имеют к этому отношение. Достаточно привести пример алгебр 
как истинностных значений из работы [4]. 

Вероятностная модель запросов 

Причина, почему так важно уметь оценивать количественные 
характеристики ответов на запросы, кроется в том, что 
множество, представляющее объем ответа, дано пользователям 
Интернет всегда потенциально, а количественная характеристика 
дана актуально. Например, в момент написания этих слов в 
поисковой системе АІіаѴі&а был сделан запрос найти все 
страницы, на которых упоминаются слова 1/пМесІ 8шеа. В ответ 
были выданы первые десять адресов страниц, удовлетворяющих 
нашему запросу, и сообщение, что всего таких страниц около 
959.000.000 (девятьсот пятьдесят девять миллионов). Понятно, 
что никто и никогда не сможет просмотреть все эти страницы, но 
количественная характеристика ответа может быть использована. 
Последующее изложение как раз и будет связано с тем, как 
можно использовать количественные характеристики для 
извлечения из сети Интернет дополнительной информации. 
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Пусть дано множество соотнесения II, состоящее из |ІІ| 
элементов. Сопоставим каждому подмножеству 8 множества II 
число Р(8), заключенное в интервале 0<Р(8)<1 и представляющее 
вероятность того, что случайно выбранный элемент иеіі будет 
принадлежать множеству 8. Так как выбор элемента и случаен, 
т.е. равновероятен для всех элементов множества II, определение 
Р(8) будет выглядеть следующим образом: 

Ш. 19 Р(8) = |8|/|Ц, где 8еІІ 

Т.е. Р(8) сопоставлено число, представляющее ту долю, 
которую составляют элементы множества 8 от числа всех 
элементов множества II. В согласии с традицией теории 
вероятностей будем называть подмножества множества II 
событиями. 

Семейство подмножеств множества II замкнуто 
относительно дополнения, объединения и пересечения, т.е. 
является алгеброй множеств. Очевидно, что для этих множеств 
будут выполняться следующие условия, являющиеся аксиомами 
теории вероятностей: 

Р 1. Р (0) = О; 

Р 2. 0< Р(8) <1 для любого 8еІІ; 

Р 3. Р (8<дѴ) = Р(8) + Р(Ѵ), если и только если 8оѴ=0. 

Таким образом, на множестве адресов Интернет-страниц, 
удовлетворяющих условиям произвольного запроса и, мы всегда 
можем естественным образом задать дискретное вероятностное 
пространство. 

Как и положено, для двух событий 8с;ІІ и ѴсЛІ определим 
условную вероятность того, что если произвольный элемент иеіі 
принадлежит множеству V, то он также будет принадлежать 
множеству 8. 

ІЗеР.20 Р(8/Ѵ) = Р(8глѴ)/Р(Ѵ) (=|8пѴ|/|Ѵ|) 

Смысл именно такого определения очевиден. Так как мы 
интересуемся лишь элементами множества V, то дробь 
Р(8оѴ)/Р(Ѵ) в определении как раз и представляет, какую долю 
от множества V составляют элементы множества 8. 
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Ниже приводим некоторые теоремы теории вероятностей. 

Р 4. Р(8иѴ) = Р(8) + Р(Ѵ)-Р(8оѴ) 

Р 5. Р(8/8пѴ) = 1 
Р 6. Р(8/Ѵ) + Р(-8/Ѵ) = 1 

Р 7. Р(-8/8пѴ) = О 

Р 8. Р(8оѴЛѴ) = Р(8АѴ) + Р(ѴЛѴ) - Р(8оѴЛѴ) 

Р 9. 8с\Ѵ => Р(8)<Р(\Ѵ) 

Необходимо отметить, что мы не можем определить 
вероятностного пространства на множестве всех адресов 
Интернет-страниц, так как для пользователя оно не является 
алгеброй множеств. 

Если К.(\ѵ) - запрос к сети Интернет, то вместо Р(Щѵѵ]) будем 
писать просто Р(ѵѵ) и читать как вероятность того, что случайно 
выбранный из множества соотнесения адрес удовлетворяет 
запросу Я(\ѵ), т.е. принадлежит его области истинности Щлѵ]. 
Соответственно запись Р(\ѵ/ѵ) на самом деле будет служить 
сокращением для Р(Щ\ѵ]/К.[ѵ]). 

Так как Щѵѵлѵ] = Щѵѵ]пЩѵ], то Р(ѵѵлѵ) = Р(К.[лѵ]оЩѵ]). 
Аналогично Р(\ѵѵѵ) = Р(Щ\ѵ]иК.[ѵ]) и Р(-ѵѵ) = Р(К|-ѵѵ)) = 
Р(ІЖ[лѵ]) = 1- Р(Я[\ѵ]). 

Всякий ответ на запрос к поисковой системе является 
событием в построенном нами вероятностном пространстве. 

Дадим определение понятия независимых событий, которое 
будет являться центральным в последующем изложении. 

Е>е01 События 8 и V независимы, если и только если 
Р(8оѴ) = Р(8)*Р(Ѵ). 

Смысл этого определения становится ясен, если равенство 
преобразовать к следующему виду Р(8г»Ѵ)/Р(Ѵ) = Р(8). Слева от 
знака равенства Р(8г>Ѵ)/Р(Ѵ) представляет условную вероятность 
Р(8/Ѵ), т.е. долю, которую составляют элементы множества 8 от 
множества V, а справа стоит Р(8) - оценка доли, которую 
составляют элементы множества 8 от всего множества 
соотнесения 11. Получаем, что события 8 и V независимы, если и 
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только если эти доли равны. Не количества, а именно доли, 
которые всегда выражаются дробными числами в интервале от О 
до 1. 

Дадим применительно к нашей модели еще одно 
истолкование независимости событий, но уже в терминах 
количества элементов. Для этого в соответствии с определением 
Р(8г»Ѵ) и Р(Ѵ) перепишем равенство Р(8пѴ) = Р(8)*Р(Ѵ) 
следующим образом |8пѴ|/Ц_І| = Р(8)*|Ѵ|/Щ. Умножив обе части 
на |Ц|, получим |8г>Ѵ| = Р(8)*|Ѵ|. Т.е. события 8 и V независимы, 
если и только если количество элементов множества 8оѴ равно 
Р(8), умноженному на количество элементов множества V. 

Подтверждение и принятие гипотез 

Элементы теории вероятностей понадобились нам для того, 
чтобы с ее помощью определять, когда ответы на запросы в 
построенном нами вероятностном пространстве являются 
зависимыми событиями. 

Вывод о том, что два события являются зависимыми, 
производится по правилу, напоминающему тосіиз іоііепсіо іоііет 
А~>В,-іВ => -іА. 

Пусть даны два события 8, V. Из гипотезы, что эти события 
независимы Н(8,Ѵ), в теории статистики следует, что с большой 
вероятностью они должны находиться в определенном 
отношении <р(8,Ѵ), которое может быть проверено эмпирически. 
Посредством обращения к свойствам построенного 
вероятностного пространства мы показываем, что имеет место 
-іф(8,Ѵ), вероятность истинности которого в силу одних лишь 
случайных причин не превышает некоторого достаточно малого 
значения а. Отсюда делается вывод, что на уровне значимости а 
имеет место -іН(8,Ѵ). 

Уточнение правила опровержения гипотез будет выглядеть 
следующим образом: 

Н(8,Ѵ) з Р(ф(8,Ѵ))>1-а, -і<р(8,Ѵ) => -Л(8,Ѵ) а 

Для практического использования данного правила нам 
осталось лишь уточнить, что из себя представляет <р(8,Ѵ). 
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Есть много конкретных вариантов того, что использовать в 
качестве <р(8,Ѵ). В их основе лежит сопоставление ожидаемой 
вероятности Ре(8оѴ) = Р(8)*Р(Ѵ) при независимости событий 8 
и V с фактической И(8г>Ѵ). Мы будем использовать так 
называемый непараметрический критерий Фишера [1,9]. 



Построим следующую таблицу (сопряженности); 



_8_ 

-8 

V 

а 

Ь 

-V 

с 

а 


где а~|8пѴ|, Ь=|-8пѴ|, с=|8гѵѴ|, а=|-8п-Ѵ|, т.е. количества 
элементов, вошедших в соответствующие пересечения. При 
независимости 8 и V мы ожидаем, например, что величина 
Ре(8гчѴ) будет равна Р(8)*Р(Ѵ) = |8|*|Ѵ|/(ЦІ!*|Ц|) = 

(ан^)*(а+Ь)/((а+Ь+с+<і)*(а+Ь+с+д)). 

Критерий Пирсона-Фишера позволяет сравнивать ожидаемые 
при условии независимости частоты с фактическими и на 
основании такого сравнения делать выводы о 
независимости/зависимости событий. Теорема Пирсона-Фишера 
гласит, что при неограниченном росте Щ=а+Ь+с+с1 случайная 
величина, рассчитываемая по формуле 

ІЖ.22 Х2 = (а+Ь+с+<1)*(а*ё-Ь*с) # (а*<і-Ь*с)/((а+с)*(а+ѣ)*(ЫчІ)*(с+<І)), 
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стремится к распределению хи-квадрат. В случае зависимых 
признаков данная величина неограниченно возрастает. 

Имеются специально рассчитанные таблицы критических 
значений Х2, при превышении которых можно с различной 
степенью вероятности утверждать, что события $ и V не 
являются независимыми. Фрагмент такой таблицы приводится 
ниже. 


а=0,1 

а=0,05 

а=0,01 

а=0,001 

2,71 

3,84 

6,63 

10,83 


Например, если рассчитанная величина Х2 превысила 6,63, 
то вероятность того, что данное событие случайно, не превышает 
0,01. Следовательно, с вероятностью не менее 0,99 мы можем 
утверждать, что события § и V зависимы. 

Таким образом, в качестве <р(8,Ѵ) мы рассматриваем 
утверждение «величина Х2 не превышает критических значений». 

После прихода к заключению о наличии связи между двумя 
событиями необходимо исследовать сам характер этой связи. 
Дело в том, что мы пока не знаем направленности связи. Если 
Р(8гтѴ)>Р(8)*Р(Ѵ), то связь собьггий 8 и V положительна, так 
как их пересечение содержит больше элементов, чем ожидалось 
бы в случае их независимости. Аналогично, если 
Р(8пѴ)<Р(8)*Р(Ѵ), то связь событий 8 и V отрицательна, так 
как их пересечение содержит меньше элементов, чем ожидалось 
бы в случае их независимости. 

ОеГ.23 Щ\ѵ)* а К.(ѵ) - запрос Я(\ѵ) ассоциативно связан с 
запросом Щѵ) на уровне а, если и только если гипотеза о 
независимости событий Щѵѵ] и Щѵ] отвергнута на уровне а и 
Р(ѵл\ѵ)/(Р(ѵ)*Р(\ѵ))> 1. 

Е)е1‘.24 Щ\ѵ)о а Щѵ) - запрос Щ\ѵ) диссоциативно связан с 
запросом Щѵ) на уровне а, если и только если гипотеза о 
независимости событий Щ\ѵ] и Щѵ] отвергнута на уровне а и 

Р(ѵл\ѵ)/(Р(ѵ)*Р(ѵѵ))<1 

Заметим, что Р(ѵлѵѵ)/(Р(ѵ) * Р(\ѵ)) = Р(ѵ/ѵѵ)/Р(ѵ) = а*<1/(Ь*с). 
Эта оценка может принимать любые неотрицательные значения и 
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показывает, во сколько раз больше вероятность встретить 
страницу, которая одновременно удовлетворяет двум запросам 
К(ѵ) и К.(ѵѵ), по сравнению с ожидаемой вероятностью, если бы 
запросы были независимы друг от друга. Значения меньше 
единицы соответствуют отрицательной связи между событиями, 
а значения больше единицы - положительной связи. 

Интересно вновь обратиться к конечнозначной логике 
Лукасевича. Можно показать, что определяемые в ней 
конъюнкция & и дизъюнкция #, задают диссоциативную связь 
между высказываниями, а конъюнкция д и дизъюнкция ѵ задают 
ассоциативную связь. Представляет интерес расширение логики 
Лукасевича новым видом конъюнкции, соответствующим 
независимым высказываниям. На уровне семантики это просто 
произведение значений конъюнктов. При этом, разумеется, 
придется совершить переход от конечнозначной к 
бесконечнозначной логике. Такое расширение является 
переходом к ргоАісІ-логике Лукасевича. В последние годы 
исследователи многозначных и нечетких логик уделяют много 
внимания именно ргоёисі -логикам. 

Справедливы следующие правила вывода: 

К 1. К.(ѵѵ)»аК(ѵ) => К.(ѵ)»сД(\ѵ) 

К. 2. Щ\ѵ)» а К(ѵ) => Щ-ѵѵ)» а К(-ѵ) 

К 3. К(ѵѵ)»аЩѵ) => Я(ѵѵ)<> а К.(-ѵ) 

К 4. К.(ѵѵ)о а К.(ѵ) => Щ\ѵ)« а К(-ѵ) 

Покажем, что эти правила действительно имеют место. 

Правило К. 1 очевидно и его доказательство мы опускаем. 

Доказательство К2. 

Допустим, что Щѵѵ)« а К.(ѵ). По ЭеОЗ гипотеза о 
независимости К[\ѵ] и К.[ѵ] отвергнута на уровне а и 
Р(ѵдѵѵ)/(Р(ѵ)*Р(\ѵ))> 1. Это означает, что величина Х2, 
вычисляемая по правилу ІУеі.22 превысила некоторое пороговое 
значение для уровня значимости а. 

Таблица сопряженности для К[ѵѵ] и Р|ѵ] выглядит 
следующим образом: 
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Щѵѵ] 

-Щѵѵ] 

Щѵ] 

а 

Ь 

-Щѵ] 

с 

д 


Х2 = (а+Ь+с+<і)*(а*<1-Ь*с)*(а*<і-Ь*с)/((а+с)*(а+Ь)*(Ь-і-<і)*(с+ё)) 

Р(ѵлѵѵ)/(Р(ѵ)*Р(ѵѵ)) = Р(ѵ/\ѵ)/Р(ѵ) = а*ё/(Ъ*с) >1. 

Построим таблицу сопряженности для -Щѵѵ] и -Щѵ]. Она 
будет выглядеть следующим образом: 



-Щѵѵ] 

Щѵѵі 

№01 

ё 

С 

Щѵ] | 

ь 

а 


Х2 = (а+Ь+с+<і)*(сі*а-с*Ь)*(с!*а-с*Ь)/((Ь+(і)*((і+с)*(с+а)*(Ь+а)) 
= (а+Ь+с+<1)*(а*сІ-Ь*с)*(а*(і-Ь*с)/((а+с)*(а+Ь)*(Ь+сі)*(с+<!)) и 
Р(-ѵл-ѵѵ)/(Р(-ѵ)*Р(-ѵѵ)) = а*ё/(Ь*с)>1. 

Таким образом, гипотеза о независимости -Щѵѵ] и -Щѵ] 
также может быть отвергнута на уровне а и следовательно Щ- 
ѵѵ)««Щ-ѵ). 


Доказательство К..З 

Допустим, что К(ѵѵ)»аЩѵ) 

По ІЭеОЗ гипотеза о независимости Щѵѵ] и Щѵ] отвергнута 
на уровне а и Р(ѵдѵѵ)/(Р(ѵ)*Р(ѵѵ))>1. Это означает, что величина 
Х2, вычисляемая по правилу Иеі.22 превысила некоторое 
пороговое значение для уровня значимости а. 

Таблица сопряженности для Щѵѵ] и Щѵ] выглядит 
следующим образом: 



Щѵѵ] 

-Щѵѵ] 

КМ 

а 

Ь 

-Щѵ] 

С 

ё 


и 


Х2 = (а+Ь+с+сІ)*(а*<1-Ь*с)*(а*<1-Ь*с)/((а+с)*(а+Ь)*(Ычі)*(с+с1)) 
Р(ѵлѵѵ)/(Р(ѵ)*Р(ѵѵ)) = Р(ѵ/ѵѵ)/Р(ѵ) = а*(1/(Ь*с) >1. 
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Построим таблицу сопряженности для Щ\ѵ] и -Щѵ]. Она 
будет выглядеть следующим образом: 



вд 

-Щлѵ] 

-Щѵ] 

с 


Щѵ] 

а 

ь 


Х2 = (а+Ь+с+<і)*(с*Ь-а*й)*(с*Ь-а*сІ)/((с+а)*(с+<і)*(<1+Ь)*(а+Ь)) 
= (а+Ь+с+<і)*(а*ё'Ь*с)*(а*<1-Ь*с)/((а+с)*(а+Ь)*(Ь+<1)*(с+д)) 
Р(-ѵлѵѵ)/(Р(-ѵ)*Р(ѵѵ)) = с*Ъ/(а*<1)<1 

Таким образом, гипотеза о независимости Щѵѵ] и -Щѵ] также 
может быть отвергнута на уровне а и следовательно Щѵѵ)<>аЩ- 
ѵ). 


Доказательство К.4 затруднений не вызывает. 

Практический пример 1 

Приведем пример того, как все это может работать на 
практике. Рассмотрим следующее утверждение. В наше время 
скрытой причиной многих войн является борьба за контроль над 
нефтяными ресурсами. Оно принимается нами как верное, но в 
то же время трудно припомнить хотя бы одну войну, целью 
которой явно декларировался контроль за нефтяными ресурсами. 

Нас будет интересовать вопрос, действительно ли в наше 
время имеется связь между нефтью и войнами, которые ведутся в 
мире. При запросе к сети Интернет в качестве множества 
соотнесения возьмем лишь те страницы, в которых содержится 
упоминание 17пі(есІ Зіаіех. 

Итак, пусть и =17пі(есі Зіаіез, \ѵ=уѵаг, р=ре(гоІеит. Нам 
необходимо получить количественные оценки ответов на 
запросы илѵѵлр, илѵѵл-р, ил-ѵѵлр и ил-ѵѵл-р. 

Воспользуемся поисковой системой Интернет АЙаѴізІа. 
Запрос илѵѵл-р и ответ на него будет выглядеть в ней следующим 
образом 
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шѴІвШйэипй і*?,»99Л90гжіЪ 

Ш аВМШ ЦЦИЦ. Ииші УДѴіГЯііі-жаг ргсіюаз&гва&піо угеаКвп Йш ЦшЫ Зіаіеа 


В сети Интернет на момент написания настоящей работы 
было около 137 миллионов страниц, на которых в одном 
контексте упоминались Ііпііесі Зіаіез и хѵаг, и не упоминалось 
реігоіеит. 

Выполним остальные три запроса и составим таблицу 
сопряженности: 


Шііесі 8Шез 

реігоіеит 

- реігоіеит 

\ѵаг 

3,98 млн. 

137 млн. 

- \ѵаг 

7,47 млн. 

806 млн. 


Вычисляем оценку Х2 = 3678214. Сравниваем ее с таблицей 
критических значений и видим, что мы можем на уровне 0,001 
отвергнуть гипотезу о независимости событий Щцллѵ] и Щилр]. 


1 

Р(ил\ѵ) 

0,14771 

2 

Р(илр) 

0,01199 

3 

Р(илѵѵ)*Р(илр) 

0,00177 
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в 

Р(илѵѵлр) 

шптиіш 

в 


■♦ЖЕУ/аДі 

іб 

Р(илѵѵаг/ил-ір) 

ШтхьѵлЖ 

в 

Р(илр/ил\ѵ) 

0,02823 

в 

Р(илѵѵлр)/(Р(иллѵ)*Р(илр)) 

■дцтиі 


Так как Р(цлѵѵлр)/(Р(ил\ѵ)*Р(илр)) = 2,35593 > 1, мы 
получаем, что на множестве соотнесения ііпііед 8іаІе$ запрос 
К(\ѵаг) ассоциативно связан с запросом Щреігоіеит) на уровне 
0,001. В нашей записи Щилѵѵ^о.ооіЩилр). 

Из Р(ил\ѵаг/илр) = 0,34760 следует, что на каждой третьей 
Интернет-странице, на которой упоминается реігоіеит, 
упоминается и м/аг. В то же время из Р(илѵѵаг/ил-ір) = 0,14528 
следует, что лишь на каждой седьмой Интернет-странице, на 
которой не упоминается реігоіеит, содержится упоминание и юг. 

Полученный результат конечно же не является 
доказательством того, что в наше время скрытой причиной 
многих войн является борьба за контроль над нефтяными 
ресурсами. В то же время нельзя отрицать очевидного факта, что 
содержание Интернет-публикаций далеко не случайно, а 
отражает происходящие в реальной жизни события, ожидания 
людей и пр. Поэтому сильная ассоциативная связь между 
страницами, содержащими слово реігоіеит, и страницами, 
содержащими слово ѵѵаг, говорит о существовании реальной 
связи между событиями, имеющими отношение к войне и нефти. 
Интересно то, что эта связь не обязательно должна быть явно 
осознана авторами публикаций. От них лишь требуется быть 
добросовестными регистраторами всего, что происходит вокруг. 
Это мы уже будем искать скрытые закономерности в том, что они 
увидели и зафиксировали. 

Ряды событий 

Закономерности, которые можно искать в сети Интернет, не 
ограничиваются одними лишь ассоциативными связями между 
отдельными событиями. Значительный интерес представляет 
поиск связей между рядами событий. 

Пусть имеются две функции Г и §, определенные на одной 
области I. Допустим, для конечного множества элементов из 
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области определения {іі,...,і п }сЛ нам известны значения функций 
Діі)=хь •• -ДіпЯхп, ё(іі)=уі,...,ё(іп)=у п . Требуется ответить на 
вопрос, имеется ли какая-нибудь связь между функциями Ги §? 

Следует обратить внимание не то, что данная постановка 
задачи имеет много общих черт с задачами, для решения которых 
предложил свои методы Д.С.Милль. Фактически речь пойдет об 
одном из современных уточнений метода сопутствующих 
изменений. 

Существующие закономерности можно разделить на 
детерминистические и недетерминистические. При этом 
детерминистические закономерности являются всего лишь 
предельным случаем недетерминистических. 

Например, пусть I - это множество людей, С сопоставляет 
каждому человеку его рост, а 8 - его вес. Очевидно, что по 
значению одного параметра нельзя предсказать точное значение 
другого, но в то же время очевидно, что связь между ростом и 
весом человека имеется. Обычно, чем больше рост, тем больше 
вес, и чем больше вес, тем больше рост. Для оценивания такого 
рода закономерностей, которые могут связывать значения 
параметров лишь приблизительно, используются специальные 
оценки под названием коэффициент корреляции. 

Для тех случаев, когда функции І'и § принимают числовые 
значения, может использоваться коэффициент линейной 
корреляции Пирсона, вычисляемый по формуле: 

ОеГ.25 г = Хі(хгХ)*(угѴ)/(Ѵ іі(х г Х) 2 Ѵ іі( У ,-Ѵ) 2 ), где 
Х=Х,х/п, Ѵ-^у/п. 

Коэффициент корреляции может принимать значения от -1 
до +1. Если он отрицателен, то чем больше (меньше) значение 
одного параметра, тем меньше (больше) значение другого 
параметра. Если же коэффициент корреляции положителен, то 
чем больше (меньше) значение одного параметра, тем больше 
(меньше) значение другого параметра. Крайние значения -1 или 
+1 указывают на то, что по значению одного параметра мы 
можем с абсолютной точностью предсказать значение другого 
параметра. В случае роста и веса людей коэффициент корреляции 
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положителен, но все-таки меньше единицы, так как связь между 
параметрами не является однозначной. 

Специальные формулы для вычисления коэффициентов 
корреляции предложены для тех случаев, когда область значений 
функций { и § не является числовой, а всего лишь линейно 
упорядочена. Это так называемые коэффициенты ранговой 
корреляции Спирмена и Кенделла. 

В предельном случае функции Е и § могут быть просто 
булевозначными. Если считать, что они принимают значения 1 и 
О, то формула для вычисления коэффициента корреляции 
остается той же, что и для линейной корреляции Пирсона, но 
может быть выражена несколько проще: 

ОеОб г == (рц-рі*р^)/Ѵ(рі*(1- Рі)*Рі*(1 - Рі», где Рц=2л*у/п, 

Рі=2л/п, Рі=Еуі/п 

Если область определения функций Г и § линейно 
упорядочена, например, в случае, когда она является множеством 
моментов времени, открываются дополнительные возможности 
для анализа. Пусть нас интересует связь между государственным 
финансированием образования и темпами развития экономики. 
Если в качестве анализируемых данных мы возьмем 
соответствующие величины для разных стран, то получцм 
коэффициент корреляции, связывающий эти два параметра. 

Аналогичное исследование можно провести и для отдельно 
взятой страны, взяв в качестве анализируемых данных ежегодные 
вложения в образование и ежегодные оценки темпов развития 
экономики. Во втором случае мы будем иметь дело с анализом 
временных рядов. Очевидно также, что во втором случае может 
быть поставлена задача выявления причинной зависимости 
между анализируемыми параметрами. Особенность здесь 
заключается в том, что увеличение или уменьшение 
финансирования образовательной сферы сказывается на темпах 
развития экономики не сразу, а с задержкой на несколько лет. 
Знание таких закономерностей позволяет заблаговременно 
прогнозировать наступление негативных событий и принимать 
меры для их предотвращения. 
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Подтвердить гипотезу о существовании причинной 
зависимости между двумя временными рядами данных можно 
путем вычисления так называемой кросскорреляции этих рядов. 
Это набор коэффициентов корреляции для различных временных 
сдвигов двух рядов друг относительно друга. Например, при 
вычислении коэффициентов корреляции мы сравниваем 
финансирование образования с темпами экономического 
развития через год, через два, через три и т.д. Или наоборот 
сравниваем финансирование образования с темпами 
экономического развития, какими они были год назад, два года 
назад, три и т.д. В зависимости от того, в какую сторону 
осуществлен временной сдвиг, проверяются два варианта 
гипотезы о направленности причинной связи. 

Вывод о наличии зависимости между двумя функциями { и § 
производится по правилам, аналогичным тем, которые мы 
использовали для выяснения зависимости между отдельными 
событиями. 

Пусть даны две функции Г, §. Из гипотезы, что они 
независимы Н(і",§), в теории следует, что с большой 
вероятностью они должны находиться в определенном 
эмпирически проверяемом отношении А.(^§), которое выражается 
с помощью коэффициента корреляции Посредством обращения к 
свойствам коэффициента корреляции мы показываем, что имеет 
место -іА.(Г,§), вероятность истинности которого для конкретных 
эмпирических данных не превышает некоторого достаточно 
малого значения а. Отсюда делается вывод, что на уровне 
значимости а имеет место ->Н(Г,§). 

Н(Г,8) з Р(«>а, ->ЩВ) => -Н(Г, 8 ) а 

Для практического использования данного правила нам 
осталось лишь уточнить, что из себя представляет А^,§). 

В случае коэффициента линейной корреляции Пирсона по 
формуле аЬз(г)*Ѵ(п-1) вычисляется оценка и для выбранного 
уровня значимости а сравнивается с критическими значениями 
специальных таблиц. Если оценка превосходит табличное 
значение, то вероятность данного события для независимых 
функций не превышает уровня значимости а. Например, для 
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случая п=10 таблица критических значений имеет следующий 
вид: 


а=0,1 

а=0,05 

а=0,01 

а=0,001 

1,65 

.У>_ 

2,29 

2,62 


Практический пример 2 

Покажем, как это будет работать в применении к Интернет- 
запросам. 

Мы уже знаем, что запрос К(\ѵаг) ассоциативно связан с 
запросом К-(реІгоІеит). Проведем такое же исследование, но 
отдельно по последним десяти годам. Современные поисковые 
системы, например, АКаѴізІа и Япёех, позволяют указывать 
временной интервал, которому должны принадлежать страницы 
из области истинности запроса. Результаты приведены в 
следующей таблице. Из предпоследнего столбца видно, что 
оценка Х2 в каждой строке превышает критические значения для 
а=0,001. Раз так, то особый интерес для нас будет представлять 
последний столбец, в котором стоит оценка силы ассоциативной 
связи между запросами. 


Эаіе 

ѵѵлр 

-.ѵѵлр 

лѵл-ір 

-іЛѴЛ-ір 

Х2 

Р(ѵѵлр)/(Р(лѵ)*Р(р)) 

1996 

389 

782 


■ 9 

188 

2,2942085 

1997 

763 

1510 

210000 

■щ 

ищи 

1,7775109 

1998 

1120 

3220 

367000 

1278660 

ШШЕ& 

1,2118564 

1999 

2020 

48600 


2130380 

9668 

0,1453968 

2000 

37200 

70700 


3311100 


1,775934 

2001 

66300 

114000 

1740000 

5279700 

ВЕЗЯ 

1,764691 

2002 

92600 

164000 

2560000 

8083400 

19708 

1,7828764 

2003 

178000 

239000 

4580000 

13203000 

60490 

2,1469862 

2004 

376000 

411000 

8050000 

25363000 

232285 

2,8823769 

2005 

2870000 

5270000 

110000000 

679860000 

3019029 

3,3658758 


Стоит обратить внимание на то, что в 1999 оценка 
ассоциативной связи приняла значение меньше 1, т.е. в 1999 году 
связь между Р(\ѵаг) и К.(ре1го1ешп) была диссоциативной. 
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Для наглядности представим эти же оценки в виде 
диаграммы. Черная кривая линия - это аппроксимация значений 
полиномом 2-й степени. 



Следующая диаграмма представляет августовские цены на 
нефть за этот же период. 



Очень похожие диаграммы. 
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Допустим, что оценка ассоциативной связи между Я(\ѵаг) и 
К(реігоіешп) и цены на нефть не зависят друг от друга. 
Вычислим коэффициент линейной корреляции между ними 
г=0,7799. Величина аЬв(г)*Ѵ(п-1) = 0,7799*л/9 = 2,3399 
превосходит критическое значение 2,29 для а=0,01. Т.е. это дает 
нам основания отвергнуть гипотезу о независимости и с 
вероятностью больше 0,99 утверждать о существовании 
положительной зависимости/корреляции между двумя рядами 
значений. 

Вычислим еще два коэффициента корреляции. Первый 
г1=0,4294 - между значениями Р(\ѵлр)/(Р(\ѵ)*Р(р) за 1996-2004 гг. 
и ценами на нефть за 1997-2005 гг. Второй г2=0,9208 - между 
значениями Р(ѵѵлр)/(Р(\ѵ) *Р(р) за 1997-2005 гг. и ценами на 
нефть за 1996-20(И гг. 

Коэффициент корреляции г 1=0,4294 между 
Р(лѵлр)/(Р(ѵѵ)*Р(р) и ценой на нефть в следующем году является 
положительным, но не дотягивает до значимых уровней. Поэтому 
мы не можем со сколько-нибудь большой вероятностью 
утверждать о временной связи между двумя рядами значений. А 
вот коэффициент корреляции г2=0,9208 между сегодняшней 
ценой на нефть и значениями Р(\ѵлр)/(Р(ѵѵ)*Р(р) в следующем 
году достаточно велик, чтобы с вероятностью больше 0,999 
утверждать о существовании положительной временной связи. В 
данной ситуации интересно то, что мы не можем утверждать, что 
сегодняшняя цена на нефть положительно или отрицательно 
зависит от прошлогоднего Р(\ѵлр)/(Р(ѵѵ)*Р(р), но зато мы можем 
утверждать, что сегодняшняя цена на нефть влияет на то, как 
сильно в следующем году будет ассоциироваться Щѵѵаг) и 
Щрейгоіеит). Чем выше сегодняшняя цена на нефть, тем чаще в 
следующем году люди будут в одном контексте упоминать \ѵаг и 
реігоіеит. 

Приведенный выше пример интересен тем, что он 
устанавливает связь между моделью Интернета Мі и моделью 
внешнего мира М\ѵ, показывает неслучайность информации, 
публикуемой на страницах глобальной сети. Как уже было 
сказано выше, корреляционные связи являются одним из 
современных уточнений методов индуктивной логики 
Д.С.Милля, которые направлены на обнаружение в том числе и 
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причинных связей. При умелом подходе эта информация может 
быть использована в прогностических целях, чего ожидать в 
ближайшем будущем в реальном мире. Мы еще вернемся к таким 
примерам чуть позже. 

Практический пример 3 

Ряды событий имеет смысл анализировать не только с целью 
последующего вычисления коэффициентов корреляции. 

Возьмем в качестве множества соотнесения страницы из 
области истинности запроса К.(Ііпі1есІ 8Шез). Нас будет 
интересовать связь между К(іеітогІ8т) и К(роѵегІу) во временном 
интервале с1997 по 2005 гг. 

I - Іеггогізш 

р - роѵегіу 

Ниже приведена таблица оценок, полученных с помощью 
поисковой системы АкаѴізІа. Последние два столбца - это 
оценка Х2 и оценка силы ассоциативной связи. Последняя строка 
- суммарная оценка всего анализируемого периода. 


Оаіе 

Ілр 

-ілр 

іл-р 

Чл-р 

Х2 

Р(ілр)/(Р(і)*Р(р) 

1997 

255 

56945 

1425 

898375 

254 

2,82 

1998 

754 

107246 

49746 

1502254 

2152 

0,21 

1999 

991 

169009 

74809 

2545191 

3119 

0,20 

2000 

2370 

303630 

133630 

4030370 

5728 

0,24 

2001 

61800 

405200 

392200 

6450800 

42238 

2,51 

2002 

128000 

551000 

693000 

9628000 

135876 

3,23 

2003 

218000 

812000 

1082000 

16288000 і 

330354 

4,04 

2004 

411000 

1429000 

2139000 

30321000 

627465 

4,08 

2005 

4710000 

16490000 

29090000 

734710000 

16964639 

7,21 

АП 

5533295 

20325705 

33656214 

806801786 

17572484 

6,53 


Как видим, имеет место сильная ассоциативная связь между 
К(ІеггогІ8ш) и К(роѵегіу). Но она не была постоянной, а с 
течением времени менялась. Лучше всего это видно на 
следующей диаграмме. 
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1997 1996 1999 2000 2001 2002 2003 2004 2005 


В 1998-2000 гг. связь между К(1еггогІ8ш) и Щроѵейу) была 
даже диссоциативной, и лишь с 2001 года (террористическая 
атака на башни-близнецы в США) связь между К(1еггоп8ш) и 
К(роѵегіу) стала ассоциативной и продолжает усиливаться. Это 
означает, что после 2001 года люди все чаще усматривают связь 
между такими явлениями как терроризм и бедность. 

Было бы интересно вычислить корреляцию с числом 
террористических актов по годам, но мы в настоящий момент 
такими данными не располагаем. 

Практический пример 4 

Еще один пример анализа динамики ассоциативных связей 
относится уже к России. 

Возьмем в качестве множества соотнесения страницы из 
облает истинности запроса ЩКшяіа). Нас будет интересовать 
связь между К(Рийп), К(Ьас1) и ОДоод) во временном интервале с 
2000 по 2005 гг. 

р - Риііп 
$- 80 од 

Ъ-Ьа<І 
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Ниже приведены две таблицы оценок, полученных с 
помощью поисковой системы АІІаѴізІа. Последние два столбца - 
это оценка Х2 и оценка силы ассоциативной связи. 


ЩРигіп) - Щ§о(х1) 


РЛВ 

РА-8 

-РА8 

-рл-8 

Х2 

Р(рл 8 У(Р(р)*Р(8) 

2000 

2490 

43310 

378510 

605690 

20475 

0,09 

2001 

39200 

43800 

587800 

1119200 

5693 

1,70 

2002 

47800 

50400 

790200 

1421600 

6821 

1.71 

2003 

85200 

68800 

1284800 

2241200 

22523 

2,16 

2004 

152000 

145000 

2328000 

4265000 

31062 

1,92 

2005 

2520000 

4350000 

40680000 

1,16Е+08 

395093 

1,66 


ЩРигіп) - К(Ъагі) 

Овіе 

рлЬ 

рл-Ь 

-рлЪ 

-рл-Ь 

Х2 

Р(рлЬУ(Р(р)*Р(Ь) 

2000 

1270 

44530 

168730 

815470 

6559 

0,14 

2001 

1650 

81350 

265350 

1441650 

11462 

0,11 

2002 

2580 

95620 

355420 

1856380 

12973 

0,14 

щщщ 


102200 

560200 

2965800 

33526 

2,68 

шш 


206400 

1029400 

5563600 

46296 

2,37 

2005 

1350000 

5520000 

17550000 

1,4Е+08 

464389 

1,95 


На следующей диаграмме приведена оценка ассоциативной 
связи между Я(Рибп), К(дооб) и К(ЪасІ). 
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Мы видим, что в первый год первого президентского срока 
Пугина имела место сильная диссоциативная связь между 
К(РиІіп), ІЦдооф и ЩЬад). Это можно проинтерпретировать как 
то, что к нему присматривались и старались не выносить 
оценочных суждений. В 2001-2002 гг. деятельность Пугина в 
основном оценивали положительно. В 2003 году произошел 
резкий всплеск негативных оценок. При более детальном анализе 
можно показать, что это произошло после ареста Ходорковского. 
С тех пор негативные оценки превалируют. В 2003 году Путин 
совершил главную ошибку, в результате которой отношение к 
нему западного сообщества резко изменилось. 

Очевидно, что в данном случае вычисление корреляционных 
связей вряд ли возможно, но это вовсе не означает, что при 
анализе рядов событий мы должны ограничиваться лишь ими. 
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МАТЕМАТИЧЕСКИЕ МЕТОДЫ КОНТЕНТ-АНАЛИЗА 

В предыдущей главе было показано, какие скрытые 
возможности для выявления закономерностей имеются, но не 
используются в уже существующих поисковых системах 
Интернет. Теперь же речь пойдет о расширении числа методов 
обработки информации, хранящейся в глобальной сети. Основная 
идея заключается в том, чтобы снабдить ответы на запросы 
некоторыми дополнительными оценками, базирующимися на 
частотных характеристиках встречаемости слов на страницах 
Интернет. Эта информация никак не представлена в стандартных 
ответах на запросы, но она хранится в базах данных поисковых 
систем и используется для оценки степени релевантности 
Интернет-страниц конкретным запросам. Таким образом, мы 
приближаемся к возможности совмещения поиска информации в 
сети Интернет с контент-анализом. 

Что такое контент-анализ? 

Контент-анализ официально существует уже более ста лет, 
но до сих пор имеется целый ряд заблуждений относительно 
того, что же он из себя представляет. Очень часто этот термин 
дословно переводят на русский язык как "анализ содержания" и 
считают, что все поняли, что это просто содержательный анализ 
текстов, их истолкование. В других случаях контент-анализ 
путают с реферированием текстов или с поиском информации в 
текстовых базах данных. 

Появление контент-анализа было реакцией на возникшую 
потребность в создании объективных методов анализа текстов, 
результаты которых не зависели бы ни от личности 
исследователя, ни от того, где и когда эти исследования 
проводятся. Т.е. требовалось найти такие методы оценки 
текстов, которые не вызывали бы разногласий между 
исследователями и были воспроизводимы в любое время и в 
любом месте. 

Никто не возражает против содержательного анализа 
текстов, их истолкования и пр. Просто не следует называть это 
контент-анализом, который изначально он задумывался именно 
как строгий метод оценки текстов. 
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Одним из определений контент-анализа является следующее: 
"Контент-анализ - это методика выявления частоты появления 
в тексте определенных интересующих исследователя 
характеристик, которая позволяет ему делать некоторые 
выводы относительно намерений создателя этого текста или 
возможных реакций адресата" [10]. 

Когда в качестве наиболее объективной оценки текстов 
избрали частоту появления в нем различных характеристик, 
казалось, что оптимальное решение найдено. Вскоре поняли, что 
не все так просто. Если попросить двух экспертов подсчитать, 
сколько раз, например, было упомянуто имя президента в 
конкретном номере конкретной газеты, то скорее всего их ответы 
совпадут. Причиной расхождений может стать лишь 
невнимательность при подсчете. Но вот если попросить этих же 
экспертов подсчитать в той же газете количество слов с 
негативной окраской, то результаты будут явно отличаться. Более 
того, один и тот же эксперт на одном и том же материале в 
разные моменты времени даст разные ответы. Причина кроется в 
неоднозначности критериев. Эта проблема стоит настолько 
остро, что она даже отдельно изучается. Существуют 
специальные методы оценки надежности результатов ручного 
контент-анализа, когда можно доверять экспертам, а когда 
нельзя. 

Отдельный вопрос - трудоемкость контент-анализа. Имеется 
интересная методика, позволяющая по тексту объемом от 80 до 
150 слов получить достаточно полный психологический портрет 
автора. Анализируются в основном грамматические 
характеристики. На ручной анализ одного текста по той же 
методике уходит от 4 до 6 часов времени. Гораздо хуже обстоят 
дела, когда приходится оценивать большие массивы текстов, 
поступающих непрерывно. Ручной контент-анализ становится 
просто невозможным. Выходом в данной ситуации является 
разработка компьютерных методов контент-анализа 
Невнимательность исключена; неоднозначность исключена, 
если критерии приняты; трудоемкость решается за счет 
быстродействия. 

К математическим оценкам текстов в компьютерном 
контент-анализе можно предъявить ряд требований. Во-первых, 
эти оценки должны сами по себе иметь хорошее математическое 
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обоснование. Во-вторых, они должны быть просты, понятны и 
легко интерпретируемы даже людьми далекими от математики. 
Лишь в этом случае методы контент-анализа получат широкое 
распространение и применение в гуманитарных исследованиях. 
В-третьих, они должны допускать удобное наглядное 
представление не только в виде таблиц чисел, но и в виде 
графиков и диаграмм. Последнее просто в иной форме выражает 
требование к удобному интерфейсу компьютерных программ, 
позволяющему отображать данные как в дискретной, так и в 
аналоговой форме. 

Характеристиками или элементами содержания, по 
отношению к которым применяется процедура подсчета, могут 
быть отдельные слова, словосочетания, предложения, абзацы, 
тексты. При этом сами характеристики никогда не являются 
самоцелью. Они интересны лишь в той степени, в какой являются 
индикаторами происходящего во внеязыковой реальности. В 
этом заключается существенное отличие контент-анализа от 
методов квантитативной лингвистики, от методов 
статистического изучения языка. 

Оценки частот 

В контент-анализе самыми бедными по содержанию и в то 
же время самыми фундаментальными являются простые оценки 
частот. Примем следующее обозначение 

Й[с,і) - частота встречаемости характеристики с в тексте I. 

В качестве примера рассмотрим частоту (количество) 
упоминания фамилии конкретного политика в конкретном СМИ 
(газете). Если речь идет о частоте упоминания в отдельном 
номере газеты, то практически никаких выводов сделать из этого 
нельзя. Совсем другое дело, если отслеживать частоты на 
протяжении определенного отрезка времени и сопоставлять их с 
поступками этого политика. Отсюда можно прийти к выводу о 
том, что в поведении данного политика привлекает внимание 
журналистов анализируемого издания. Можно подсчитывать 
частоту упоминания политика не в отдельных номерах газета, а 
помесячно, и сопоставлять ее не с поступками, а с регулярно 
публикуемыми рейтингами политических деятелей. ЭИго явится 
подходящим материалом для исследования на тему, как влияет и 
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влияет ли частота упоминания политика в СМИ на его рейтинг. 
Гораздо больше информации даст одновременный подсчет частот 
упоминания не одного, а нескольких политиков. Появляется 
возможность сравнивать их между собой. В этом случае, 
например, корреляции частот может послужить основанием для 
более глубокого изучения общего в поведении анализируемых 
политиков. 

Отдельные слова, как элементы содержания, являются 
частным случаем того, что в контент-анализе называется 
категорией. Категория - это множество слов, объединенных 
вместе по тому ши иному признаку. Так, например, в качестве 
категории ЖИЛЬЕ может выступать группа синонимов {берлога, 
дом, жилище, жшье, логово, логовище, обиталище, обитель}. 
Другими примерами могут быть категории агрессивно 
окрашенной лексики АГРЕССИВНОСТЬ={бить, бушевать, 
грозить, назло, одолеть, погром, рычать,...} и позитивно 
окрашенной лексики ПОЗИТИВ- {благодарность, бодрый, 
вкусный, добро, нежный, няня, теплый, шутка, юмор, ясный,...}. 
Частота упоминания в тексте некоторой категории 
подсчитывается как сумма частот входящих в нее слов, т.е. если 
К - категория, то 


дк,і)=і жеК д™д 

Логической операцией, лежащей в основе создания 
категории, является определение через абстракцию. Вовсе не 
обязательно категория должна задаваться посредством заранее 
фиксированного списка слов. Иногда гораздо удобнее задать ее 
операционально. Примером такой категории может быть 
категория глаголов прошедшего времени. Определение 
принадлежности к ней будет заключаться не в сопоставлении с 
фиксированным списком слов, а в распознавании 
грамматических признаков глагола прошедшего времени. 

Более сложными являются категории, состоящие не просто 
из отдельных слов, а из целых словосочетаний. Например, 
категория МОРЕ-{Черное море, Средиземное море, Красное 
море, Балтийское море,...}. Контент-анализ с использованием 
категорий позволяет оценивать тексты на более высоком 
абстрактном уровне. Результаты, получаемые с их помощью, 
качественно богаче. Возьмем, например, категории ПОЗИТИВ, 
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НЕГАТИВ, АГРЕССИВНОСТЬ, АРМИЯ, ПОЛИТИКА, 
ЭКОНОМИКА, РАЗВЛЕЧЕНИЯ, ЗАКОН и подсчитаем частоты 
их встречаемости в интересующем нас издании на протяжении 
нескольких месяцев. Затем сопоставим, подсчитаем корреляцию, 
с ежемесячными рейтингами этого же издания среди различных 
социально-демографических групп. Положительные и 
отрицательные коэффициенты корреляции между частотами 
отдельных категорий и рейтингами подскажут, статьи какой 
тематики привлекают или отталкивают читателей той целевой 
группы, на которую рассчитано издание. 

Как было сказано ранее, не только слова или словосочетания 
являются теми элементами содержания, частота которых может 
интересовать исследователя. Вместо того, чтобы подсчитывать 
частоту упоминания фамилии политика, можно подсчитывать 
частоту предложений, в которых упоминается политик. 
Очевидно, что в общем случае вторая величина будет меньше 
первой. Можно подсчитывать частоту абзацев, обладающих 
определенными признаками. Более крупными элементами 
являются целые тексты - статьи и книги. Например, подсчет 
частоты статей различной тематики позволяет делать выводы о 
редакционной политике издания. Аналогичный подсчет тематики 
книг, поступающих в научную библиотеку, позволяет судить о 
тенденциях в развитии науки, перспективных направлениях 
исследований и т.д. 

Условные частоты 

Простые частоты являются не самой подходящей оценкой 
текстов. Проблемы с ними могут возникнуть в том случае, если 
мы захотим сравнить разные по длине тексты. Например, пусть в 
некотором тексте Іі длиной в 1000 слов категория НЕГАТИВ 
встречается с частотой 20, а в тексте (2 длиной в 10000 слов - с 
частотой 100. Является ли пятикратная разница частот 
достаточным основанием для утверждения, что текст 1 2 окрашен 
более негативно, чем текст 1)? Очевидно, что нет. Для вынесения 
такого утверждения необходимо сравнивать не простые частоты, 
а условные, т.е. доли которые составляет категория НЕГАТИВ в 
первом и втором тексте. 

Условную частоту характеристики с в тексте I обозначим 
посредством рг(с,1). Вычисляется она по формуле 
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рг(с,1)=Дс,1)/Ці), где Ці) - длина текста I 

В зависимости от того, что принято за элементы содержания, 
в качестве длины текста может быть взято общее количество в 
нем слов, количество предложений, количество абзацев и т.д. 
Обычно, если характеристика - это отдельное слово или 
категория слов, то и в качестве длины текста берется количество 
слов в нем. 

В нашем примере рт(НЕГА ТИВ,Х\ )=20/1000=0,02 больше, чем 
рт(НЕГА ТИВ,іг)~ 100/10000=0,01. Т.е. более негативно 

окрашенным является не второй, а первый текст. 

Иногда вместо условных частот удобнее использовать 
оценку процентного содержания. Для этого просто умножают 
условную частоту на 100 и тем самым получают процентное 
содержание. Переход от использования простых частот к 
условным значительно расширяет сферу применимости методов 
контент-анализа. Если раньше все наши примеры имели дело с 
текстами одинаковой длины, то теперь это ограничение снято. 
Теперь мы можем сравнивать разные по длине статьи, разные по 
объему издания и пр. 

Нормы 

До сих пор для того, чтобы делать какие-то выводы, нам 
требовалось оценить как минимум два текста. Затем эти оценки 
либо сопоставлялись между собой, либо соотносились с 
некоторыми событиями в реальном мире, и на основании этого 
делались определенные выводы. 

Представим, что перед нами поставлена задача 
классификации текстов по медицинской и немедицинской 
тематике. Причем требуется, чтобы это делал не человек, а 
компьютер. Решение довольно очевидно. Текст должен быть 
отнесен к медицинским в том случае, если частота 
встречаемости медицинских терминов в нем существенно выше, 
чем в обычной речи. Для этого следует сформировать категорию 
медицинских терминов Кт и сопоставить ей условную частоту 
встречаемости в обычной речи рг(Кт,речь), которую назовем 
нормой для категории Кт. При анализе конкретного текста I 
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подсчитывается условная частота рг(Кт,1). Если она существенно 
больше нормы рг(Кт,речь), то текст I относят к к медицинской 
тематике. Аналогичная процедура может быть применена для 
дальнейшей классификации текстов по различным разделам 
ме дицины . Достаточно лишь сформировать соответствующие 
категории и сопоставить им нормы, но уже не на основании 
обычной речи, а на основании анализа представительной 
выборки различных медицинских текстов. Задача по 
формированию норм облегчается тем, что в настоящее время 
существует довольно много частотных словарей, относящихся к 
различным сферам человеческой деятельности, и нормы можно 
извлекать из них. Нормы можно вычислять и для отдельных 
людей. Они могут оказать весьма полезны, например, для 
определения душевного состояния человека. Так превышение в 
речи относительно личной нормы частоты категории НЕГАТИВ 
может свидетельствовать о том, что человек находится в дурном 
настроении. 

Важно подчеркнуть, что понятие нормы всегда относительно. 
Для сугубо гражданского человека норма частоты употребления 
агрессивно окрашенной лексики одна, для профессионального 
военного - другая. Нормы могут меняться не только от одной 
профессионально определенной группы людей к другой, но и со 
временем. Причиной тому служат исторические изменения в 
жизни общества, отмирание старых идей и появление новых, 
заимствования из других языков, влияние на лексический состав 
языка таких факторов как общественная мораль и пр 

Более строго понятие нормы можно определить следующим 
образом. Имеется некоторое множество текстов Т, которые 
объединены вместе по определенному признаку. Нас интересует 
норма характеристики с для Т. Так как множество текстов Т 
может быть слишком велико или недоступно целиком, то из него 
берется представительная конечная выборка ѴеТ и уже для нее 
вычисляется условная частота рг(с,Ѵ). Это и будет принято в 
качестве нормы характеристики с для Т, которую мы обозначим 
посредством пг(с,Т). Норма характеристики с для множества 
текстов Т - это ожидаемая условная частота ее встречаемости в 
произвольном тексте, принадлежащем данному множеству. Для 
представления того, как сильно отличается от ожидаемой частота 
встречаемости характеристики с в конкретном тексте ІеТ, 
используются следующие оценки: 
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рп(с, 1 ,Т)=рг(с, 1 )/ііг(с,Т) - во сколько раз отличается рг(с, 1 ) от 
пг(с,Т) 

р<і(с, 1 ,Т)=[[рг(с, 1 :)-пг(с,Т)]/пг(с,Т)]* 100 - на сколько процентов 
отличается рг(с, 1 ) от пг(с,Т). 

Аналитика в первую очередь интересуют те тексты, для 
которых оценка рп(сЛТ) существенно отличается от 1, или же 
оценка рб(с, 1 ,Т) существенно отличается от 0 . При этом 
дополнительного уточнения тербует термин существенно 
отличаться. На помощь приходит аппарат математической 
статистики. Обычно считают, что характеристика с имеет в 
тексте I биномиальное распределение с вероятностью пг(с,Т). 
Пусть реально в тексте 1 : характеристика с встретилась рг(с, 1 )*Ці) 
раз в то время как ожидалось пг(с,Т)*Ь( 1 ) Исходя из свойств 
биномиального распределения легко подсчитать, насколько мала 
вероятность того, что для произвольного текста I, абсолютная 
величина аЬз(рг(с, 1 1 )-пг(с,Т))*Ь( 1 ; ) > аЬз(рг(с, 1 )-пг(с,Т))*Ці). 

Обычно, если вычисленная таким образом вероятность не 
превышает порога 0,05 (или 0,01), считается, что отклонение 
реальной частоты от ожидаемой существенно, т.е. не является 
случайным. 

На практике гораздо чаще используют оценку, вычисляемую 
по формуле: 

2 (с,і,Т)=[рг(с, 1 )-пг(с,Т)]/ 8 рКТ[рг(с, 1 )*( 1 -рг(с, 1 ))/Щ)] 

Это разница двух условных частот, нормированная по 
стандартному отклонению. Ее имеет смысл использовать лишь в 
том случае, если рг(с,1)*(1-рг(с,1))*Ь(і)>25. Эта оценка хорошо 
известна психологам и социологам. Именно с ее помощью 
обосновываются методы вычисления баллов многих 
психологических тестов. Если г(с,1,Т)>1,96, то мы фазу можем 
сказать, что вероятность данного события не превышает 0,05. 
Если же г(с,1,Т)>2,58, то вероятность этого события еще меньше 
и не превышает 0 , 01 . Из формулы видно, что данная оценка 
прямо пропорциональна корню квадратному из длины текста і. 
Именно поэтому ее можно использовать для определения того, 
что данное событие не является случайным, но не для оценки 
того, насколько велико отклонение реальной частоты от 
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ожидаемой. К сожалению, многие психологи и социологи не 
различают этого и потому их выводы очень далеки от научности. 
В применении к методам психологического тестирования 
замечательную критику по этому вопросу дал А.Г Шмелев. 

Контекстный анализ 

Основная идея контекстного анализа заключается в том, что 
анализу подвергается не весь текст, а лишь некоторая выборка из 
него, являющаяся контекстом употребления характеристики с. 
Есть много способов задать контекст. Например, для слова 
(характеристики) \ѵ в качестве его контекста мы можем взять все 
предложения (абзацы, статьи, книги), в которых оно встречается. 
Вместо предложений мы можем считать контекстом по одному 
или более слов слева и справа от каждого вхождения \ѵ в текст. 

Если текст I рассматривать как множество предложений, а 
предложение 8 рассматривать как множество слов, то контекст 
категории С в тексте I можно определить как 

сіх(С,і)={з-{\ѵ}| \ѵеС, ѵѵез, ее*}. 

Выделенный контекст может анализироваться как 
самостоятельно, так и относительно основного текста. Во втором 
случае основной текст служит источником норм, которые затем 
используются при анализе контекста. Т.е. во втором случае для 
произвольной категории К мы интересуемся условной частотой 
рг(К,с!х(С,1)) и сравниваем ее с нормой пг(К,1:), вычисляемой как 
рг(К,ЧС}), гдеІ-{С}={8-{ѵѵ}| \ѵеС, зеі} 

Дополнительно к этому мы можем выделить множество слов 
со1(СД)={ѵѵ| рг(\ѵ,сІх(С,1)) существенно больше рг(\ѵ,1-{С})} 

В англоязычной литературе по контент-анализу такое 
множество называется соііосаііоп категории С. Отношение 
существенно больше валидизируется с помощью аппарата 
математической статистики по аналогии с тем, как это 
описывалось выше. Множество со!(С,1) содержит много полезной 
информации о категории С. Например, со1({змея},речь) будет 
содержать такие слова как яд, кусать, ползать. 
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пресмыкающееся,..., а в оо\({Путин},СМИ) войдут слова 
Владимир, президент, Кремль, Россия,.... 

Связи категорий 

Мы можем интересоваться не только оценками данного 
текста по отдельных категориям, но и их взаимосвязями. 

Любому тексту I. рассматриваемому как последовательность 
предложений <8і,...§п>, и категории С может быть сопоставлен 
булев вектор Ъ(*,С)=<ѵі ,.. ,ѵ„>, где ѵ,=1, если для некоторого ѵѵеС 
имеет место ѵѵе8і, и ѵрО в противном случае. На множестве 
векторов легко определить логические операции. Для двух 
векторов Ь(і,Сі)=<Ѵі,...Ѵп> и Ь(і,С^<иь...и„> они определяются 
следующим образом 


Ь(1,С,)&Ь(1,С])=<тіп(ѵі,иі),...дпт(ѵ п ,и п )>- конъюнкция 


Ь(1,С і )ѵЬ(1,^)=<шах(ѵ ь иі),...дпах(ѵп,и п )> - дизъюнкция 


-іЬ(і,Сі)=<1-Ѵі,...,1-Ѵп> - отрицание 

Затем на множестве векторов можно ввести логические 
отношения совместности, противоречия, подчинения и пр. 
Очевидно, что таким образом задается некоторая логическая 
модель предметной области, о которой идет речь в тексте, или же 
модель когнитивной карты, присущей автору текста. Дальнейшее 
изучение этих моделей проводится с использованием аппарата 
классической, многозначной или вероятностной логики 
высказываний. 

Очевидно, что мы можем применить к анализу взаимосвязи 
категорий внутри текста тот же аппарат вероятностной логики, 
который применили в предыдущей главе к анализу запросов. 

Особый интерес представляет анализ и визуализация 
отношений между категориями с использованием аппарата 
многомерного шкалирования, кластерного и факторного анализа. 

Определим на множестве категорий (булевых векторов, 
сопоставленных категориям) функцию близости. Для каждого 
вектора Ь(і,Сі)=<ѵі,...Ѵп> вычисляется оценка 
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р.= Еѵ/а і=1,...,п 

Тогда коэффициент корреляции для булевых векторов 
вычисляется следующим образом 


сог(С„С^ = (р і&і - р і *р і ) / 8 ЯЛ(Рі*(1-Рі)*Р і *(1і> ) )), 


а функцию близости можно определить как 


скед =і-сог(ед) 


Также в качестве оценки близости двух категорий часто 
используется метрика Хемминга, определяемая посредством 
формулы 


Ь(Сі,Сі) = Рі+Рі-2*Рі &і 

Контент-мониторинг 

Если анализу подвергается массив упорядоченных во 
времени текстов, поступивших из одного источника, речь идет 
уже не о простом контент-анализе, а о контент-мониторинге 
текстовой информации. В этом случае, появляется 
дополнительная возможность применить математический 
аппарат многомерного регрессионного анализа и аппарат анализа 
временных рядов. 

Так, например, контент-мониторинг размещенных в сети 
Интернет пресс-релизов РАО ЕЭС позволил обнаружить 
закономерности, связывающие различные психолингвистические 
характеристики текстов с последующими биржевыми 
изменениями курса акций компании. Применение этих же 
закономерностей к анализу пресс-релизов компании ЕМКСЖ, 
размещенных на ее Интернет-сайте, позволило обнаружить 
неблагополучие в делах компании задолго до наступившего 
осенью 2001 года банкротства. То, чего не заметили аудиторы, 
было обнаружено с использованием методов контент- 
мониторинга. 
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ПРИЛОЖЕНИЯ 


1. КОМБИНИРОВАННАЯ ЛОГИКА ЗАПРОСОВ 

Логика запросов к сети Интернет представляет собой дуал 
позитивного фрагмента классической логики. В ней нет 
общезначимых формул, но есть противоречивые. По этой 
причине ее удобно представить в виде комбинированного 
исчисления высказываний и событий [8]. 

ОеГ.1 Язык 

1. Множество событийных переменных Ѵаг = {р, ц, г,...}; 

2. Двухместные функциональные символы п, и,#; 

3. Формулообразующий оператор Ѳ; 

4. Логические связки &, ѵ, :э, -і. 

ОеР.2 Термы 

1. Если ре Ѵаг, то реТепп; 

2. Если аеТегт, ЬеТегш, то апЬеТегш, аиЬеТепп, 
а#ЬеТегш; 

3. Ничто другое термом не является. 

ОеРЗ Формулы 

1. Если аеТегт, то ѲаеРгт; 

2. Если АеРгт, ВеРгт, то А&ВеРпп, АѵВеРгш, 
АзВеРпп, -іАеРгт; 

3. Ничто другое формулой не является. 

ОеР4 Модель 

Моделью будем называть пару М=<>Ѵ, П>, где \Ѵ - 
множество возможных миров, а П - семейство его подмножеств, 
замкнутое относительно пересечения, объединения и 
относительного дополнения. 

Пусть Ѵаі = П Ѵаг . Для фиксированной модели М определим 
ѵ(а) - значение терма а в модели М при приписывании значений 
переменным ѵ. 

ОеР.5 

1. ѵ(алЬ) = ѵ(а)пѵ(Ь); 

2. ѵ(аиЪ) = ѵ(а)иѵ(Ь); 

3. ѵ(а#Ь) = ѵ(а)\ѵ(Ь). 
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Для фиксированной модели М Определим отношение 
(ѵ,х)|=А - «формула А истинна в модели М в мире х для 
приписывания значений переменным ѵ». 

Веіб 

1. (ѵ,х) = Ѳа <=> хеѵ(а) 

2. (ѵ,х)=А&В <=> (ѵ,х)=Аи(ѵ,х)|=В 

3. (ѵ,х)=АѵВ <=> (ѵ,х)(=А или (ѵ,х)|=В 

4. (ѵ,х)=АэВ о (ѵрс) ^А или (ѵ,х)|=В 

5. (ѵ,х)=-іА <=> (ѵ,х) фК 

Определим отношение М,х|=А - «формула А истинна в мире 
х в модели М». 

ВеП 

М,х|=А <=> для всякого ѵеѴаІ имеет место (ѵ,х)|=А. 

Определим отношение М|=А - «формула А истинна в 
модели М». 

ІМ.8 

М|=А <=> для всякого хе\Ѵ имеет место М,х|=А. 

Определим отношение |=А - «формула А общезначима». 
Е)еГ.9 

|=А о для всякой модели М имеет место М|=А. 

Аксиомы 

1. Аксиомы классической логики высказываний; 

2. Ѳ(аоЬ) э Ѳа&ѲЬ; 

3. Ѳ(а^Ъ) = ѲЬѵѲа; 

4. Ѳ(а#Ь) = Ѳа&-іѲЬ; 

Правило вывода: 

К.11-А, |-А=>В => І-В. 

Имеют место следующие теоремы. 

Теорема о непротиворечивости. |-А => |=А. 
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Теорема о полноте. |=А => |-А. 


Построенная логика может быть представлена в виде 
аналитических таблиц [7]. Для этого достаточно добавить к 
стандартной формулировке классической логики следующие 
шесть правил редукции: 

1 . (ТѲ(агтЬ), Е} => {ТѲа, ТѲЬ, Е} 

2. {РѲ(аоЬ), Е} => {РѲа, Е}, {РѲЬ, Е} 

3. {ТѲ(а^Ь), Е} => {ТѲа, Е}, (ТѲЬ, Е} 

4. {РѲ(аиЬ), Е} => {РѲа, РѲЬ, Е} 

5. {ТѲ(а#Ь), Е} =* {ТѲа, РѲЬ, Е} 

6. {РѲ(а#Ь), Е} => {РѲа, Е}, {ТѲЬ, Е} 


Условия замыкания таблицы остаются теми же, что и для 
классической логики. 
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2. АЛГОРИТМ ПОСТРОЕНИЯ АНАЛИТИЧЕСКИХ 
ЗАПРОСОВ 

В этом приложении будет подробно описан алгоритм 
формирования аналитических запросов к сети Интернет. 
Аналитическими они названы по той причине, что, во-первых, 
ответы на них содержат не фактическую, а аналитическую 
информацию, и, во-вторых, сам ответ получается не в явной 
форме, а требует осуществления некоторой аналитической 
процедуры. Такие Запросы к сети Интернет лучше всего 
производить с помощью поисковых систем АНаѴізІа для 
английского языка и Япсіех для русского. Использование системы 
КашЫег нежелательно по причине неудовлетворительного 
алгоритма поиска и индексации, который в ней реализован. 

Аналитические запросы производятся с целью получить 
оценку характера и силы ассоциативной связи в сети Интернет 
между ответами на простые запросы. Например, нас может 
интересовать, имеется ли ассоциативная связь между ответами на 
запросы, представленные словами уѵаг и реігоіеит. 

Первый шаг алгоритма заключается в составлении на языке 
конкретной поисковой системы двух запросов р и ч, отношение 
между которыми нас интересует. Эти запросы не обязательно 
должны быть представлены отдельными словами, а могут иметь 
произвольную степень сложности. 

Второй шаг состоит в фиксации контекста поиска. Т.е. 
запросы производятся не относительно всей сети Интернет, а 
относительно тех страниц, на которых, например, упоминается 
словосочетание Ѵпііеі Зіаіез. Для этого на языке поисковой 
системы составляется третий запрос и. Он также может иметь 
произвольную степень сложности, но предпочтение следует 
отдавать более простым запросам. 
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Третий шаг. С помощью программы Ехсеі создается таблица 
следующего вида: 
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Четвертый шаг. В поисковой системе Япбех выбирается опция 
Расширенный поиск (АсЫапсед ЗеагсИ в А1іаѴі$іа) и 
последовательно производятся четыре запроса вида: и, и&р, 
и&ц, и&р&ц. Символ & соответствует естественноязыковому 
союзу ‘и’, в разных поисковых системах он может быть 
представлен по-разному. Очевидно, что от исследователя 
требуется хорошее знакомство с языком запросов поисковой 
системы. После получения ответа на каждый из запросов в 
таблицу Ехсеі заносится информации о количестве найденных 


страниц. 

ррииир 


файл Цравка (Забранное Сервис ДОавкв 

'г ; Ѵг 

фнвж» ,*‘О ГІпЙЙІ 


т у- - г — 




ЩРИИ .... >-М 

Адрьч. 1 Д Ьар://ѵ^.уапгісх.ги/уап*іаагсЬ?га^^ 


Яиёех 

Найдётся всё 


Почта 



Кшт 1 Ш РОСТИ Маоквт Словар и Картинки 


Результат с—не менее 1 729 

Запросов авмесяцвеіі— т ^уГиі 

1 Афиша: "Ош* (драма, ІащіШй) 

1. ВААЛ 

ПРОЕКТ ВААЛ 

Система ВААЛ, работа над которой ведется с 1992 года, позволяет прогнозировать аффект 
неосознаваемого воздействия текстов на массовую аудиторию.. 
ѵѵулѵ.ѵааі.ги (26 КБ) 
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В результате таблица примет следующий вид: 


■ 

о 

в 

с 

Б 

Е 

Р 

о 

Ш 

I 

и 

в 

и&р 

и&) 

и&р&Я 

и&-р&я 

ими 

и&-р&-я 

Х2 

Р(ш&я&рУ(Р(и&я)*Р<и&р)) 

в 

в 

в 

вя 

2 






в 











Пятый шаг. В ячейки таблицы заносятся следующие 
формулы: 

Е2-» С2-02 
Р2-» В2-Э2 
02-+ А2-В2-С2+Э2 

Н2-> (02*А2-С2*В2)*(02*А2-С2*В2)/ (В2*С2*(А2-В2)*(А2-С2)) 
12->02*(А2-В2-С2+В2)/((С2-В2)*(В2-02)) 

І2-» 02/С2 
К2-> т/т 

Шестой шаг. Определяем уровень значимости. Значение в 
ячейке Н2 сравнивается с числами, занесенными во вторую 
строку следующей таблицы: 


а=0,1 

а=0,05 

а=0,01 

а=0,001 

2,71 

3,84 

6,63 

10,83 


Выбирается наибольшее число, не превосходящее числа в 
ячейке Н2. Величина а является соответствующим уровнем 
значимости. Например, если в ячейке Н2 стоит число 8,71, то 
уровень значимости а будет равен 0,01. На практике следует 
обращать внимание на уровни значимости <х<0,05. 

Седьмой шаг - определение характера и силы связи. Если 
число, стоящее в ячейке 12 больше/меньше единицы, то между 
двумя анализируемыми запросами имеется 

ассоциативная/диссоциативная связь, т.е. страницы. 


67 



















одновременно удовлетворяющие двум запросам, встречаются 
чаще/реже, чем если бы это имело место в силу чисто случайных 
причин. 

Если производятся аналитические запросы для 
последовательных временных интервалов, то для них 
повторяются шаги 4-7. На шаге 5 формулы просто 
перетаскиваются или копируются в ячейки, стоящие ниже. 

Предложенный алгоритм может быть легко реализован 
разработчиками поисковых систем в качестве дополнительного 
сервиса. 
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3. ТЕХНОЛОГИЯ ПРОГНОЗА 

В книге Х.Хекхаузена "Мотивация и деятельность" есть 
параграф под названием "Констелляции мотивов власти, 
достижения и аффиляции". В нем описывается 
экспериментально обнаруженная связь между выраженностью 
различных мотивов у руководства фирмы и различными 
параметрами их (фирм) экономического развития. 

"Одну из изучавшихся под этим углом зрения групп 
составляли люди, занимающие руководящие посты в 
промышленности. ...Приведенные данные ... позволяют 
предположить, что оптимальный для экономического роста 
организационный климат должен складываться, когда 
руководящие административные потсы занимают люди с 
высоким мотивом власти, сочетающимся с высоким мотивом 
достижения и низким мотивом аффилиации... Ту же 
констелляцию высоких мотивов достижения и власти с низким 
мотивом аффилиации Кок [8. Е. Коек] установил несколько 
необычным образом. Основываясь на объясненных постфактум 
результатах работы ряда крупных предприятий, он предсказал 
их дальнейшую судьбу и проверил свое предсказание через 10 лет. 

...Корреляции между значениями отдельных мотивов (а 
также констелляция "достижение + власть - аффилиация", 
Д+В-А) руководства фирмы и 5 показателями экономического 
развития приведены в таблице...Нетрудно видеть, что 
показатель констелляции (Д+В-А) коррелирует с 
экономическими показателями более сильно, чем отдельно 
взятые мотивы достижения, влапсти ши аффшиации 
(последний с обратным знаком). (Стоит добавить, что с 
увеличением мотива аффшиации уменьшается также объем 
кредитов). 

...Коэффициенты корреляции 5 параметров экономического 
развития 15 трикотажных предприятий за 1954-1961 гг. и 
показателей сшы мотивов, а также их мотивационной 
констелляции у руководителей фирм [В.Е.Коск "ЕогеІа^зІеАпіп^ 
осИ тоііѵаііоп", р.215]" 
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Величина мотивов руководства фирмы 

Параметры 

Достижение 

Власть 

Аффилиация 

Д+В-А 


(Ц) 

(В) 

(А) 


Совокупная стоимость 
продукции 

0,39 

0,49* 

-0,61** 

0,67** 

Количество рабочих мест 

0,41 

0,42 

-0,62** 


Объем оборота 

0,46* 

0,41 

-0,53* 

0,60* 

Совокупный объем 
капиталовложений 

0,63* 

-і 0,06 

0,20 

0,45* 

Прибыль 

0,27 

0,01 

ШШШЗШЯА 

0,34 


Понятно, что данные результаты имеют большое 
прогностическое значение. Было бы очень интересно, если бы 
подобные результаты мы могли извлекать из анализа 
информации, содержащейся в сети Интернет. 

Целью настоящей работы как раз и является демонстрация 
объективной связи между психолингвистическими оценками 
публикуемых в сети Интернет пресс-релизов и состоянием дел 
компании, представленном в виде курса ее акций. 

Временные ряды и корреляции 

Людей всегда интересовал поиск закономерностей в 
окружающей их природе. Если есть два ряда данных 

хі, х2, хЗ,.. 

у1,у2,уЗ,... 

то в каких случаях можно говорить о наличии связи между 
ними? Например, х - это рост человека, а у - его вес. Очевидно, 
что по значению одного параметра нельзя предсказать точное 
значение другого, но в то же время очевидно, что связь между 
ростом и весом человека имеется. Обычно, чем больше рост, тем 
больше вес, и чем больше вес, тем больше рост. Для оценки 
такого рода закономерностей, которые могут связывать значения 
параметров лишь приблизительно, и был придуман в статистике 
коэффициент корреляции. 
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Коэффициент корреляции может принимать значения от -1 
до +1. Если он отрицателен, то чем больше (меньше) значение 
одного параметра, тем меньше (больше) значение другого 
параметра. Если же положителен, то чем больше (меньше) 
значение одного параметра, тем больше (меньше) значение 
другого параметра. Крайние значения -1 или +1 указывают на то, 
что по значению одного параметра мы можем с абсолютной 
точностью предсказать значение другого параметра. В случае 
роста и веса людей коэффициент корреляции положителен, но 
все-таки меньше единицы, так как связь между параметрами не 
является однозначной. 

Если ряды данных связаны с развитием некоторых процессов 
во времени, то их называют временными рядами. К ним также 
применимы методы статистического анализа. Появляются 
дополнительные тонкости, но они также поддаются учету. 
Например, нас может интересовать связь между государственным 
финансированием образования и темпами развития экономики. 
Если в качестве анализируемых данных мы возьмем 
соответствующие величины для разных стран, то получим 
коэффициент корреляции, связывающий эти два параметра. Но 
аналогичное исследование можно провести и для отдельно взятой 
страны, взяв в качестве анализируемых данных ежегодные 
вложения в образование и ежегодные оценки темпов развития 
экономики. Во втором случае мы будем иметь дело с анализом 
временных рядов. Очевидно также, что во втором случае может 
быть поставлена задача выявления причинной зависимости 
между анализируемыми параметрами. Особенность здесь 
заключается в том, что увеличение или уменьшение 
финансирования образовательной сферы сказывается на темпах 
развития экономики не сразу, а с задержкой на несколько лет. 
Знание таких закономерностей позволяет заблаговременно 
прогнозировать наступление негативных событий и принимать 
меры для их предотвращения. 

Подтвердить гипотезу о существовании причинной 
зависимости между двумя временными рядами данных можно 
путем вычисления так называемой кросскорреляции этих рядов. 
Это набор коэффициентов корреляции для различных временных 
сдвигов двух рядов друг относительно друга. Например, при 
вычислении коэффициентов корреляции мы сравниваем 
финансирование образования с темпами экономического 
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развития через год, через два, через три и т.д. Или наоборот 
сравниваем финансирование образования с темпами 
экономического развития, какими они были год назад, два года 
н азад, три и т.д. В зависимости от того, в какую сторону 
осуществлен временной сдвиг, проверяются два варианта 
гипотезы о направленности причинной связи. 

РАО ЕЭС. Постановка задачи. 

Путем сравнительного анализа цен на акции РАО ЮС и 
регулярно публикуемых пресс-релизов компании определить, 
существуют ли закономерности, связывающие чисто 
психологические оценки содержания пресс-релизов с 
колебаниями курса акций. 

Материал для анализа 

В качестве материала для контент-анализа были 
использованы более 1000 пресс-релизов компании РАО ЕЭС, 
размещенных в сети Интернет в период с июля 1999 по март 2002 
года и объединенные по месяцам. Информация о дневных ценах 
на акции компании была взята из архивов РТС. 

Методы анализа 

Компьютерный контент-анализ текстов с помощью 
психолингвистической экспергаой системы ВААЛ. 

Результаты анализа 

Результаты анализа были представлены в виде таблицы 
коэффициентов корреляции, связывающих 

психолингвистические оценки пресс-релизов с колебаниями цен 
акций. Коэффициенты корреляции были вычислены для 
различных временных сдвигов от 0 до 5 месяцев. Т.е. нас 
интересовало не только то, как влияло сегодняшнее содержание 
пресс-релизов на сегодняшние же цены, но и то, как сказывались 
сегодняшние пресс-релизы на ценах через 1,2,3,4 и 5 месяцев. 

Сообщаемое в пресс-релизах определенным образом 
соотносится с проводимой компанией хозяйственной 
деятельностью. Реальные результаты этой деятельности 
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проявляются через некоторое время. Поэтому нулевой сдвиг 
(нулевая точка) соответствует непосредственной реакции 
акционеров на сообщаемую информацию, соответствует 
ожиданиям акционеров. Оценки же через один и более месяцев 
соответствуют реакции акционеров на реальные результаты 
хозяйственной деятельности компании, а не на одну лишь 
информацию. 

Таблица коэффициентов корреляции представлена ниже. 


Категории 

Власть 


Желание власти 


Страх власти 


Достижение 


Достижение успеха 


Избегание неудачи 


Аффиляция 


Надежда на поддержку 




Физиология 


Потребность 


Внешняя потребность 


Внутренняя потребность 


Валентность общая 


Положительная 

валентность 


Отрицательная 

валентность 


Инструментальная деят 


Обработка 


Трансляция 


Ретрансляция 


Движение 

Перемещение 


ІМанипуляция 


0 

1 

0,39 

0,36 

0,30 

0,29 

- 0,03 

кш 

0,13 

шш 

0,13 

0,29 

- 0,03 

- 0,18 

0,17 

- 0,03 

0,02 

- 0,06 

- 0,29 

- 0,37 

- 0,06 

- 0,16 

0,07 

- 0,06 

о , іо 

- 0,06 

- 0,06 

- 0,02 

- 0,11 

- 0,17 

0,05 

- 0,15 

- 0,18 

- 0,12 

- 0,03 

- 0,17 

0,06 

0,16 

- 0,02 

- 0,03 

- 0,03 

- 0,06 

ІК@ 

- 0,27 

- 0,39 

- 0,36 

0,25 

0,09 


Месяцы 


0,47 0,22 


0,47 0,27 


-0,25 -0,30 


0,45 0,42 


0,48 0,47 


-0,14 -0,29 


0,09 -0,06 


0,00 - 0,22 


т 

ийГ 


-0,13 -0,18 


-0,17 -0,20 


0,06 0,03 


-0,42 -0,47 


-0,44 -0,48 


- 0,19 0,06 


0,15 0,09 


0,01 -0,17 


- 0,10 - 0,18 


- 0,20 - 0,12 


- 0,18 


0,081 -0,03 


0,02 


0,051 0,251 


- 0,19 

0,01 

- 0,16 

- 0,29 

- 0,18 

- 0,33 

- 0,29 

- 0,07 

- 0,16 

- 0,04 

- 0,19 

- 0,09 

- 0,35 

- 0,21 

0,37 

0,30 

- 0,47 

- 0,32 

- 0,51 

- 0,36 

- 0,29 

- 0,17 

- 0,09 

- 0,15 

- 0,03 

0,14 

- 0,11 

- 0,02 

- 0,18 

- 0,08 

- 0,15 

- 0,27 

- 0,27 

0,00 
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Стремление К 


Уход От 


Вверх 


Вниз 


Отрицание 


Женская символика 


Мужская 


Агрессивность 


Архетипичность 


Позитив 


Негатив 


Зрительный канал 


Чувственный канал 


Слуховой канал 


Рациональный 


Несогласие 


Согласие 


И 


Или 


Нет 


Но 


Отличие 


Подобие 


Д+В-А 


Доброжелательность 


Интеллект 


Активность 


Самоконтроль 


Независимость 


Практичность 


Правдивость 


Доминантность 


Избалованность 


Деятельность 


-0,08 

-0,24 

-0,46 

-0,36 

-0,18 

-0,22 

-0,40 

-0,34 

-0,33 

-0,04 

0,22 

0,40 

0,11 

0,23 

0,42 

0,45 

0,13 

-0,10 

0,04 

-0,21 

-0,37 

-0,23 

-0,24 

-0,25 

-0,02 

-0,08 

-0,24 

-0,49 

-0,43 

-0,37 

-о,и 

-0,10 

0,09 

-0,02 

0,27 

0,21 

0,10 

0,08 

-0,14 

-0,15 

-0,32 

-0,25 

0,13 

0,22 

0,21 

НИМ 

-0,02 

-0,02 

0,11 

0,00 

-0,09 

-0,19 

-0,42 

-0,35 

0,22 

0,00 

-0,11 

-0,28 

-0,43 

-0,46 

0,01 

-0,05 

-0,12 

-0,22 

-0,24 

-0,16 

0,00 

вш 

-0,27 

-0,30 

-0,01 

0,11 

-0,04 

0,07 

-0,13 

-0,12 

-0,32 

-0,36 

0,02 

-0,05 

-0,30 

-0,45 

-0,27 

-0,12 

0,30 

0,35 

0,55 

0,37 

0,36 

ЕНО 

-0,02 

-0,08 

-0,25 

-0,49 

-0,47 

шш 

0,29 

0,15 

0,35 

0,11 

0,10 

-0,06 

-0,15 

-0,11 

-0,21 

-0,32 

-0,09 

-0,36 

-0,14 

-0,09 

0,09 

0,16 

0,48 

0,39 

0,05 

-0,04 

-0,18 

-0,41 

-0,41 

-0,42 

-0,06 

-0,01 

-0,06 

-0,14 

-0,15 

-0,35 

0,32 

0,22 

0,08 

0,04 

-0,15 

-0,24 

0,01 

-0,04 

-0,08 

-0,09 

-0,30 

-0,05 

0,37 

0,46 

0,60 

0,39 

0,32 

0,13 

[ оЖ 

і ’. 

0,02 

0,21 

0,23 

0,24 

0,15 

-0,24 

-0,14 

0,15 

0,29 

0,41 

0,31 

1 -0,17 

-0,05 

0,30 

0,39 

■Е Ш 

ЖідГ 

шлш 

-0,08 

0,06 

0,28 

шш 

0,37 

швш 

0,08 

0,19 

0,36 

0,22 

ОД 4 

0,06 

0,09 

0,24 

0,16 

0,00 

-0,34 

0,18 

0,24 

0,07 

0,04 

0,07 

0,11 

-0,06 

шш 

0,03 

0,17 

0,08 

■ЛИ 

0,29 

0,31 

0,23 

0,20 

-0,06 

шш 

0,25 


0,29 

0,03 

-0,19 

-0,56 

шшшш 

0,07 

0,18 

0,26 
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Скрытносіъ 

ШЕШ 

-0,44 

-0,48 

-0,36 

-0,17 

0,22 

Эгоизм 

-0,08 

0,05 

0,03 

1ЕЗ 

0,34 

0,23 

Утонченность 

-0,22 

-0,25 

-0,08 

-0,09 

0,14 

ШШі 

Необычность 

-0,05 

0,00 

0,19 

0,29 

0,21 

0,06 


Коэффициенты, превышающие по абсолютной величине 
0.35, значимы на уровне 5% (с вероятностью 0,95 и выше), а 
превышающие 0.45, - на уровне 1% (с вероятностью 0,99 и 
выше). 

Мотив Власти 

В случае пресс-релизов компании к мотиву Власти 
относится информация о различных управленческих решениях, 
"связанных с распределением задач, координацией их 
выполнения, побуждением исполнителей" и пр. 




На диаграмме слева мы видим, что ожидания эффектов 
власти позитивно сказываются на курсе акций. Это следует из 
того, что коэффициент корреляции в точке 0 равен 0.39. Через 
месяц коэффициент корреляции остается практически тем же, он 
равен 0.36. Реальный эффект проявления мотива Власти 
наступает через два месяца, когда коэффициент корреляции 
достигает значения 0.47. Затем идет его понижение и через 5 
месяцев корреляция исчезает. 

Составляющими мотива власти являются Желание власти и 
Страх власти. График Желания власти почти в точности 
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повторяет график самого мотива. Более интересен график 
Страха вмети, который в нашем случае можно 
интерпретировать как нерешительность и бюрократизм в 
проведении управленческих решений. При нулевом сдвиге 
Страх вмети никак не коррелирует с ценами акций. Это значит, 
что акционеры просто не улавливают никакой нерешительности. 
Но вот эффекты такой нерешительности все-таки имеются, и 
своего максимума они достигают через три месяца. Страх 
власти является одной из скрытых переменных, описывающих 
колебания курса акций. До сих пор эффекты от ее воздействия 
воспринимались просто как случайные колебания курса. 

Мотив До с т и же ни я 

К мотиву Достижения относится деятельность, 
направленная на достижение результата. Выраженность мотива 
Достижения, как и других мотивов, определяет интенсивность 
действий, а их эффективность определяют две составляющие 
этого мотива: Достижение успеха (повышает эффективность) и 
Избегание неудачи (понижает эффективность). 



Мотив Достижения, как и его составляющие, в точке 
нулевого сдвига не коррелируют с курсами акций. Это означает, 
что у акционеров осгутствуют соответствующие ожидания. 
Акционеры вообще не выделяют этого фактора! Реальные 
эффекты проявления мотива Достижения наступают через два, а 
своего пика достигают через четыре месяца. Для Достижения 
успеха и Избегания неудачи ситуация зеркальная. 
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Мотив Аффиляцин 

Аффиляция (“потребности в социальной поддержке”) - 
деятельность, направленная на поиск дружеских связей, 
социальную кооперацию, взаимоподдержку. Она также имеет две 
составляющие - Надежду на поддержку и Страх отвержения , 
соответственно влияющие на успешность деятельности в этом 
направлении. 



>Хдод* на помешу - Сгра» онгрммм 



В нулевой точке выраженность мотива Аффиляции 
незначительно (0.17) коррелирует с ценами акций. Акционеры 
улавливают соответствующую направленность и ожидают, что 
это положительно (!) повлияет на цены акций. Они не 
догадываются, что на самом деле влияние будет негативным и 
его результаты скажутся через 5 месяцев. Цены на акции упадут, 
но причина этого останется для них [акционеров] сокрыта. 
Падение так и не будет объяснено. 

Д+В-А и Потребность 

Согласно Х.Хекхаузену, показатель констелляции мотивов 
(Достижение+Власть-Аффшяция) коррелирует с 

экономическими показателями более сильно, чем отдельно 
взятые мотивы Достижения, Власти или Аффиляции (последний 
с обратным знаком). Следующая диаграмма демонстрирует это 
наглядно. 
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На правой диаграмме показано, как влияет тип мотивации 
[внутренняя - делаю потому, что хочу; внешняя - делаю потому, 
что должен] на курсы акций. В нулевой точке ожидания 
практически отсутствуют, но зато через четыре месяца наступают 
реальные эффекты. И опять эти эффекты кажутся невесть откуда 
взявшимися. 

Другие оценки 

Левая диаграмма показывает, что аппепяция к рассудку, 
присутствие рациональной аргум ен та ции позитивно оценивается 
акционерами в нулевой точке и эффект от нее [от того, что стоит 
за этой аргументацией] также положителен. Для слухового 
канала ситуация зеркальна. 
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На правой диаграмме показано как связано наличие 
позитивной лексики с ценами акций. В нулевой момент 
позитивная лексика положительно влияет на ожидания 
акционеров, они верят красивым словам, но со второго месяца и 
вплоть до последнего происходит падение коэффициента 
корреляции. Через пять месяцев он опускается до -0.46. 
Интересное то, что на эту удочку продолжают ловиться 
акционеры и у нас и в США. 

На следующей диаграмме для категории Нет, состоящей из 
слов, представляющих отрицание в русском языке, видно, что 
увеличение количества таких слов в пресс-релизах практически 
не замечается акционерами, но всегда связано со значительным 
падением курса акций через 3 и более месяцев. 




Проявление Активности 
коррелирует с курсом цен на акции. 


наоборот 


положительно 


Всякое проявление Скрытности сразу приводит к падению 
курса акций, но в долговременной перспективе является 
оправданным, так как через пять месяцев коэффициент 
корреляции становится положительным и продолжает свой 
крутой рост. 
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Проявление Интеллекта с самого начала немножко 
настораживает акционеров, но в конечном счете приводит к росту 
курса акций. 

Как все это можно использовать? 

Мы не предлагаем использовать полученные результаты для 
того, чтобы предсказать, каким будет курс акций компании РАО 
ЮС через неделю. Для этого существуют другие методы, да это 
и не интересно. 

Полученные результаты позволяют производить глобальную 
оценку эффективности деятельности компаний. Пример ЕЬШЖа 
как нельзя лучше показал, что даже при внутреннем 
неблагополучии компании курс ее акций может некоторое время 
расти и компания даже может быть признана лучшей по итогам 
года. Но рано или поздно, как говорили диалектики, количество 
переходит в качество и неожиданно для всех компания объявляет 
себя банкротом. Теряются огромные состояния, а крайних найти 
невозможно. Даже аудиторы, на которых пытаются повесить всех 
собак, оправдываются и справедливо говорят, что оценивают 
лишь те данные, которые им предоставляют сами компании. Если 
руководство компании хочет обмануть аудитора, то оно это и 
сделает. Обманет и аудитора и акционеров. 

В этой ситуации косвенный психолингвистический анализ 
пресс-релизов (не только их) позволяет приподнять завесу 
таинственности над тем, что действительно происходит с 
компанией. Как было показано выше, большинство параметров, 
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по которым диагностируется состояние компании и 
прогнозируется ее будущее, акционерами не улавливаются. Они 
не улавливаются для сознательного контроля и самим 
руководством компании, а потому недоступны для 
фальсификации. Именно в оценке внутренних тенденций, а не в 
сиюминутном курсе акций заинтересованы инвестиционные 
компании и банки для успешного ведения бизнеса. Курс акций 
может даже расти, но если начала проявляться тенденция 
падения Д+В+А, падения Внутренней потребности, роста 
Позитива и Аффиляции, то нужно сто раз подумать прежде, чем 
покупать акции этой компании. А лучше их просто побыстрей 
продать. 

Заключение 

На примере РАО ЕЭС мы показали, как реально влияет 
выраженность различных психологических показателей у 
высших менеджеров компании на курсы ее акций. Эти 
закономерности относятся не только к РАО ЕЭС, но имеют 
универсальных характер, так как их природа заключена не в 
особенностях данной компании, а в особенностях человеческой 
психики. Размер компании или ее организационная структура 
могут повлиять на то, через сколько месяцев проявится эффект от 
изменения того или иного показателя, но то, что он проявится, 
неизбежно. Похожие закономерности действуют и в других 
сферах жизни. Анализируя тексты выступлений высших 
государственных лиц, можно судить о перспективах будущего 
развития государства. Анализируя содержание журналов, 
посвященных различным отраслям промышленности, можно 
прогнозировать будущее развитие этих отраслей. Много чего 
можно сделать, и давно уже пора начать это делать. 
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4. ЛЕТНИЙ БАНКОВСКИЙ КРИЗИС 2004 ГОДА 

Целью данного исследования было оценить степень влияния 
различных средств массовой информации на развитие событий, 
связанных с летним банковским кризисом 2004 года. Источником 
информации для анализа послужил Интернет. 

Несостоявшийся банковский кризис вызывает много 
вопросов. Как могло случиться, что люди поддались мало 
обоснованной панике и стали в такой спешке снимать свои 
деньги со счетов в коммерческих банках, что Центробанку 
пришлось выделить дополнительно более 25 млрд, наличности? 
Кто его спровоцировал? Кто выиграл? Гарантированы ли мы от 
повторения подобного? 

В настоящей статье будет проведен анализ динамики 
появления Интернет-публикаций, имеющих отношение к этим 
событиям. Был выбран период с 1.06.2004 по 24.07.2004. Т.е. 54 
дня, на которые и пришелся пик «кризиса» 5-6 июля 2004 года. 

Прежде всего, нам необходимо выделить базовые параметры, 
которые могут служить показателями развития банковского 
кризиса. В качестве их мы взяли: 

1. количество сайтов по дням на которых появлялись страницы 
с упоминанием банковского кризиса Щбанковский кризис; 
сайт]; 

2. количество новых страниц по дням с упоминанием 
банковского кризиса Щбанковский кризис; страница]; 

3. интенсивность упоминания - Щбанковский кризис; страница]/ 
Щбанковский кризис; сайт]. 

На диаграмме 1 представлена динамика изменения 
количества сайтов, на которых размещались новые статьи, так 
или иначе касающиеся «банковского кризиса». Максимум, около 
3600 сайтов, пришелся на 9 июля. В последующие дни наметился 
спад внимания к этому вопросу. 
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Диагр. 1 


На диаграмме 2 показана динамика появления новых 
документов, размещенных на сайтах в это время. Максимум, 
около 52 тысяч, приходится также на 9 июля. 
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Диагр. 2 

Следующая диаграмма представляет оценки интенсивности 
освещения «банковского кризиса» в сети Интернет. 
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Диагр. 3 

Для более пристального анализа нами был выбран ряд СМИ, 
имеющих, согласно Тор 100, наиболее высокий рейтинг 
посещаемости их Интернет-сайтов. 

1. Информационная служба 8ігапа.ги 

2. Интернет-газета Оагеіа.ги 

3. Интернет-газета Ьепіа.ги 

4. Поисковая служба КатЫег.ги (новостной раздел) 

5. «Известия» (\ѵ\ѵ\ѵ.І2ѵе5Ііа.ги) 

6. «Финансовые известия» (\ѵ\ѵ\ѵ.йпІ 2 .ги) 

7. «Комсомольская правда» (\ѵѵѵ\ѵ.кр.ги) 

8. «Независимая газета» (\ѵ\ѵ\ѵ.пд.т) 

9. «Московские новости» (\ѵ\ѵ\ѵ.тп.ги) 

10. «Аргументы и факты» (ѵтѵѵ.аіГ.ги) 

11. РИА Новости (\ѵ\ѵ\ѵ.гіап.ги) 

12. Интернет-ресурс Іпоші.ги 

Для каждого из анализируемых ресурсов был построен 
график частоты появления новых публикаций по теме 
«банковского кризиса» и вычислен коэффициент корреляции 
между этой частотой и оценками диаграммы 1. Т.е. ставилась 
задача попытаться обнаружить связь между этими параметрами 
методом сопутствующих изменений. Могли ли публикации в 
наиболее рейтинговых СМИ спровоцировать панику вкладчиков, 
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в качестве индикатора которой была взята частота появления 
сайтов с публикациями по интересующей нас теме? Эти оценки 
представлены на диаграмме 4. Черным цветом выделены оценки 
коэффициентов корреляции, значимые на уровне 0,001. Серым - 
оценки, значимые на уровне 0,05. Белым - статистически 
незначимые оценки. 


Корреляция(Сайты) 



Диагр. 4 

Априори можно было предположить, что в ситуации 
отсутствия сильной связи между этими двумя параметрами 
самыми высокими будут оценки именно у Интернет-изданий 
Зігапа.ги, Ьепіа.ги, Сагеіа.ги и КатЫег.ги, деятельность которых 
как раз и заключается в оперативном отслеживании 
происходящих событий и информировании о них в глобальной 
сети. Т.е. модель описываемых событий представлялась 
следующим образом. Среди вкладчиков начинается паника, в 
сети Интернет на различный сайтах появляется информация о 
кризисе доверия коммерческим банкам. Параллельно с этим те 
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же события отслеживаются и оперативно освещаются 
упомянутыми выше специализированными электронными СМИ. 
Корреляция между этими двумя рядами должна быть высокой. 
Отсутствие ее говорит о наличии других факторов, которые 
влияли на рост числа проблемных сайтов. Судя по всему, свою 
роль сыграли публикации на серверах «Финансовых известий», 
«Известий», «Комсомольской правды», Іпозті.ги, РИА Новости, 
«Независимой газеты». В этом нас убеждают и результаты 
анализа временных рядов, представленные на диаграмме 5. 



Эти оценки представляют собой коэффициенты корреляции 
между частотами появления новых публикаций первой шестерки 
лидеров и частотами появления с временным лагом в 0, 1 7 

дней аналогичных публикаций на серверах глобальной сети. Из 
графиков видно, что публикации в «Финансовых известиях» и 
«Известиях» продолжали оказывать существенное влияние на 
появление новых статей по «кризису» в течение 7 последующих 
дней. Быстрое снижение оценок у «Комсомольской правды», 
Іпоті.ги, РИА Новости и «Независимой газеты» говорит о том, 
что они скорее откликались на происходящие события, чем 
активно формировали их. 

Обратимся к графикам частоты появления новых публикаций 
на анализируемых сайтах. 
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Первый пик частоты, 1099 публикаций, приходится на 30 
июля, за 6 дней до паники, а второй пик, 913 публикаций, 
приходится на 4 июля, накануне начала паники. Сомнения 
вызывают чересчур большие частоты - практически невозможно 
за один день произвести и разместить столько новых статей. 
Разгадка заключается в том, что наряду с новыми публикациями, 
сообщения о «кризисе доверия банкам» появились на главной 
странице сайта и потому были многократно проиндексированы 
поисковыми системами. Т.е. ответ на любой запрос к сайту 
«Финансовых известий» подавался в сопровождении 
информации о «кризисе». 
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Диагр. 7 


Столь же высоки оценки частот и для сайта газеты 
«Известия». У нее также сообщения о «кризисе» были вынесены 
на первую страницу. Главное отличие от «Финансовых известий» 
заключается в том, что пик частоты, 1291 публикация, 
приходится на 7 июля. 
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«Комсомольская правда» - 601 публикация 8 июля. 



Периодичность появления пиков на сайте Іпозті.ги 
объясняется скорее всего тем, что главное его назначение - 
периодический обзор зарубежных СМИ. 

Трудно сказать, были ли высокие частоты появления новых 
публикаций на сайтах «Финансовых известий», «Известий» и 
«Комсомольской правды» случайными, но аналогичные частоты 
на сайте «АиФ» выглядят вполне естественными - максимум, 18 
публикаций, 5 июля. 
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Диагр. 10 

Столь же нормальны частоты новых публикаций на іепіа.ги. 




Диагр. 11 


Основной вывод, который можно сделать из результатов 
проведенного исследования, заключается в следующем. На 
поведение вкладчиков во время кризиса могли повлиять 
публикации в сетевых СМИ. Очевидно, что люди, имеющие 
сбережения в коммерческих банках, принадлежат к социально¬ 
активной части населения. В качестве одного из основных 
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альтернативных источников информации они используют сеть 
Интернет. Среди периодических изданий индекс цитируемое™ 
сайта газеты «Известия», согласно Яндексу, является вторым по 
величине (13000) и уступает лишь индексу (15000) СагеШ.ги. 
Среди специализированных изданий индекс цитируемое™ 
«Финансовых известий» (1900) равен индексу ежедневной 
аналитической газеты «КВС Иаііу» и значительно превышает 
индексы других изданий сходной тематики. Во время «кризиса» 
материалы, публикуемые на сайтах «Финансовых известий» и 
«Известий» могли повлиять на решения, которые принимали 
люди в поисках спасения своих вкладов. Высокие индексы 
цитарования изданий привели к тому, что подаваемая ими 
информация стала доминирующей. Мнения, высказанные на 
страницах «Финансовых известий» активно транслировались 
другими популярными Интернет-ресурсами. В этом убеждает 
следующая диаграмма. 



Диагр. 12 

Для того, чтобы получить представление о содержании 
публикаций «Известий» и «Финансовых известий», приведем 
лишь некоторые цитаты из их статей: 

«Где хранить деньги во время банковского кризиса?» 

«Россия на пороге беспрецедентного банковского кризиса?» 
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«Агентство Моосіу'з пересматривает рейтинги 22 
российских банков». 

«Кризис может изменить динамику цен на жилье». 

«Спираль кризиса раскручивается. Власти отрицают 
очевидное». 

«Будет ли банковский кризис в России? Да, случится в 2004 
году». 

«Как минимум половине из 1300 ныне действующих банков 
уготована участь вынужденного банкротства или слияния с 
другими банками». 

«Эксперты: гибель Содбизнесбанка и "Кредиттраста" 
провоцирует банковский кризис». «Отзыв лицензии у 
Содбизнесбанка и заявление о самоликвидации банка 
"Кредиттраст" вызвали нестабильность на рынке, которая 
может перерасти в полномасшабный....» 

«Когда случается банковский кризис? Тогда, когда все 
клиенты банка приходят в банк с одной целью - забрать свои 
деньги. И не важно, вкладчики это делают или фирмы, 
держащие в банке свои счета». 

«Пострадала надежность еще двух российских банков». 

«Кризис из межбанковского перерастает в 
общеэкономический». 

«Чем закончится банковский кризис? Скоро все 
нормализуется. Исчезнут мелкие и слабые банки». 

«Банковский кризис. Низы должны объяснить верхам, как 
жить дальше». 

«Следующий из этого практический вывод - до февраля 
никакого банковского кризиса не будет. Зато будет серьезное 
ухудшение финансовых результатов банков во втором полугодии 
по сравнению с первым. А уже потом у отдельных банков 
может случиться кризис - если их клиенты от объявленных 
результатов так расстроятся,..» 

«Кризис недоверия. Проблемные банки должны готовиться к 
худшему». 

«Во вторник, 29 июня, еще один банк "средней руки 
надежности", обладающий довольно широкой сетью...» 

«Из кома слухов под названием "банковский кризис" 
обозначился еще один конкретный - и немалых размеров по 
российским меркам - фигурант: Гута-банк, б июля офисы Гута- 
банка с раннего утра...» 

«Банковский кризис, наличие которого власти продолжают 
отрицать, продолжает развиваться вне зависимости от их 
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заверений в обратном. Нельзя сказать, что банкиры совсем уж 
не виноваты в кризисе. Собственно говоря, вся политика 
коммерческих банков способствовала тому...» 

Выбора у людей не оставалось - необходимо идти и срочно 
забирать свои деньги. 

Остается лишь ответить на вопрос о том, кто нажился на этой 
панике. Ответ очевиден - ГОСУДАРСТВО. Подтверждением 
тому служит следующая диаграмма, на которой представлены 
результаты сравнительного анализа двух временных рядов - 
интенсивности освещения в сети Интернет «банковского 
кризиса» и величиной капитализации Сбербанка РФ по данным 
РТС. Коэффициенты корреляции между двумя рядами 
вычислялись для временных лагов в 0, 1,..., 7 дней. 



Диагр. 13 


Хорошо видно, что повышение/понижение интенсивности 
освещения «банковского кризиса» в сети Интернет приводило с 
небольшой временной задержкой к увеличению/снижению 
капитализации Сбербанка РФ. Для временного лага в 6 дней 
величина коэффициента корреляции необыкновенно высока и 
составила 0,79. Т.е. сила связи приблизилась к функциональной. 
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